Trafilaturaは、Web上でテキストを収集し、生のHTMLを構造化された意味のあるデータに変えるプロセスを簡素化するように設計された最先端のPythonパッケージおよびコマンドラインツールです。これには、メインテキスト、メタデータ、コメントのWebクロール、ダウンロード、スクレイピング、抽出を実行するために必要なすべての発見およびテキスト処理コンポーネントが含まれています。便利でモジュール式のままにすることを目的としています。データベースは不要です。出力は、一般的に使用される形式に変換できます。
HTMLバルクから必須部品に移動すると、テキストの品質に関連する多くの問題を軽減します。実際のコンテンツに焦点を当て、ヘッダーやフッターなどの要素を再発するノイズを回避し、選択した情報を使用してデータとメタデータを理解することにより。抽出器は、ノイズの制限(精度)とすべての有効な部品(リコール)を含むとのバランスを取ります。それは堅牢でかなり速いです。
Trafilaturaは、Huggingface、IBM、Microsoft Researchなどの企業、アレン研究所、スタンフォード、東京工科大学、ミュンヘン大学などの機関だけでなく、Huggingface、IBM、Microsoft Researchなどの企業によって広く使用され、数千のプロジェクトに統合されています。
高度なウェブクロールとテキストの発見:
オンラインおよびオフラインの入力の並列処理:
重要な要素の堅牢で構成可能な抽出:
複数の出力形式:
オプションのアドオン:
オープンソースコミュニティからのサポートを受けて積極的に維持されています。
Trafilaturaは、テキスト抽出ベンチマークの他のオープンソースライブラリを常に上回り、Webコンテンツの抽出における効率と精度を示しています。抽出器は、ノイズの制限とすべての有効な部品を含めることとのバランスをとろうとします。
詳細については、ベンチマークセクションと評価READMEを参照して、最新のデータとパッケージで評価を実行してください。
Trafilaturaを始めるのは簡単です。詳細と詳細ガイドについては、Trafilaturaのドキュメントをご覧ください。
いくつかの言語のビデオチュートリアルを備えたYouTubeプレイリスト:
このパッケージは、Apache 2.0ライセンスの下で配布されています。
V1.8.0より前のバージョンはGPLV3+ライセンスを取得しています。
あらゆる種類の貢献は大歓迎です。詳細については、寄稿ページをご覧ください。バグレポートは、専用の問題ページに提出できます。
ドキュメントまたは提出されたバグレポート、機能、バグフィックスを拡張してくれた貢献者に感謝します!
この作業は、言語学とNLPの交差点で博士号プロジェクトとして始まりました。この専門知識は、長年にわたってトラフィラトゥラの形成に尽力してきました。ベルリン - ブランドバーグ科学アカデミー(DWDSおよびZDLユニット)で研究目的でテキストデータベースを作成するために最初に発売されたこのパッケージは引き続き維持されますが、その将来の開発はコミュニティのサポートに依存します。
このソフトウェアを大切にしたり、製品に依存している場合は、スポンサーとそのコードベースに貢献することを検討してください。あなたのサポートは、この人気のあるパッケージを維持および強化し、世界中の開発者とユーザーの成長、堅牢性、アクセシビリティを確保するのに役立ちます。
Trafilaturaは、洗練と変換のプロセスを象徴するワイヤー描画のイタリア語です。また、パスタの形状が形成される方法でもあります。
IAから、お問い合わせ、コラボレーション、またはフィードバックについては、ソフトウェアリポジトリまたは連絡先ページをご覧ください。最新のアップデートについては、ソーシャルネットワークも参照してください。
Trafilaturaは、主にデータ収集のために、学術領域で広く使用されています。これがそれを引用する方法です:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}共同で開発されたプラグインと追加のパッケージは、Webデータの抽出と分析の分野にも貢献しています。
対応する投稿は、言語のビットにあります。
印象的な、あなたはページの終わりに到達しました:あなたの興味をありがとう!