Trafilatura是一種尖端的Python軟件包和命令行工具,旨在收集Web上的文本,並簡化將RAW HTML變成結構化的,有意義的數據的過程。它包括所有必要的發現和文本處理組件,以執行主要文本,元數據和評論的網絡爬行,下載,刮擦和提取。它旨在保持方便和模塊化:不需要數據庫,可以將輸出轉換為常用格式。
從HTML大量到基本零件可以通過專注於實際內容來減輕與文本質量有關的許多問題,從而避免了由標頭和頁腳等經常出現的元素以及使用所選信息來了解數據和元數據。提取器在限制噪聲(精度)和包括所有有效零件(召回)之間達到平衡。這是強大且合理的快速。
Huggingface,IBM和Microsoft Research等公司以及艾倫學院,斯坦福大學,東京理工學院和慕尼黑大學等公司將Trafilatura廣泛使用,並將其集成到數千個項目中。
高級網絡爬行和文字發現:
在線和離線輸入的並行處理:
關鍵元素的強大和可配置提取:
多個輸出格式:
可選附加組件:
在開源社區的支持下積極維持:
Trafilatura在文本提取基準測試中始終優於其他開源庫,展示其在提取Web內容方面的效率和準確性。提取器試圖在限制噪聲和包括所有有效零件之間取得平衡。
有關更多信息,請參見“基準部分”和“評估回顧”,以使用最新數據和軟件包進行評估。
Trafilatura入門很簡單。有關更多信息和詳細指南,請訪問Trafilatura的文檔:
YouTube播放列表,帶有幾種語言的視頻教程:
此軟件包由Apache 2.0許可證分配。
V1.8.0之前的版本在GPLV3+許可下。
歡迎各種貢獻。訪問貢獻頁面以獲取更多信息。錯誤報告可以在專用問題頁面上提交。
非常感謝將文檔擴展或提交錯誤報告,功能和錯誤的貢獻者!
這項工作始於語言學和NLP十字路口的博士學位項目,多年來,這種專業知識在塑造Trafilatura方面發揮了作用。最初推出的目的是在柏林 - 布蘭登堡科學院(DWDS和ZDL單元)上創建用於研究目的的文本數據庫,該軟件包繼續保持維護,但其未來的發展取決於社區的支持。
如果您重視此軟件或依賴於產品,請考慮贊助並為其代碼庫做出貢獻。您的支持將有助於維護和增強這一受歡迎的軟件包,確保其增長,穩健性和可訪問性為世界各地的開發人員和用戶提供。
Trafilatura是一個意大利語,用於象徵改進和轉換過程的電線圖。這也是麵食形狀的形狀方式。
通過ia軟件存儲庫或聯繫頁面與查詢,協作或反饋聯繫。另請參閱社交網絡以獲取最新更新。
Trafilatura廣泛用於學術領域,主要用於數據獲取。這是引用它的方法:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}共同開發的插件和其他軟件包也有助於Web數據提取和分析的領域:
相應的帖子可以在語言位上找到。
令人印象深刻的是,您已經到達頁面的結尾:謝謝您的興趣!