Trafilatura是一种尖端的Python软件包和命令行工具,旨在收集Web上的文本,并简化将RAW HTML变成结构化的,有意义的数据的过程。它包括所有必要的发现和文本处理组件,以执行主要文本,元数据和评论的网络爬行,下载,刮擦和提取。它旨在保持方便和模块化:不需要数据库,可以将输出转换为常用格式。
从HTML大量到基本零件可以通过专注于实际内容来减轻与文本质量有关的许多问题,从而避免了由标头和页脚等经常出现的元素以及使用所选信息来了解数据和元数据。提取器在限制噪声(精度)和包括所有有效零件(召回)之间达到平衡。这是强大且合理的快速。
Huggingface,IBM和Microsoft Research等公司以及艾伦学院,斯坦福大学,东京理工学院和慕尼黑大学等公司将Trafilatura广泛使用,并将其集成到数千个项目中。
高级网络爬行和文字发现:
在线和离线输入的并行处理:
关键元素的强大和可配置提取:
多个输出格式:
可选附加组件:
在开源社区的支持下积极维持:
Trafilatura在文本提取基准测试中始终优于其他开源库,展示其在提取Web内容方面的效率和准确性。提取器试图在限制噪声和包括所有有效零件之间取得平衡。
有关更多信息,请参见“基准部分”和“评估回顾”,以使用最新数据和软件包进行评估。
Trafilatura入门很简单。有关更多信息和详细指南,请访问Trafilatura的文档:
YouTube播放列表,带有几种语言的视频教程:
此软件包由Apache 2.0许可证分配。
V1.8.0之前的版本在GPLV3+许可下。
欢迎各种贡献。访问贡献页面以获取更多信息。错误报告可以在专用问题页面上提交。
非常感谢将文档扩展或提交错误报告,功能和错误的贡献者!
这项工作始于语言学和NLP十字路口的博士学位项目,多年来,这种专业知识在塑造Trafilatura方面发挥了作用。最初推出的目的是在柏林 - 布兰登堡科学院(DWDS和ZDL单元)上创建用于研究目的的文本数据库,该软件包继续保持维护,但其未来的发展取决于社区的支持。
如果您重视此软件或依赖于产品,请考虑赞助并为其代码库做出贡献。您的支持将有助于维护和增强这一受欢迎的软件包,确保其增长,稳健性和可访问性为世界各地的开发人员和用户提供。
Trafilatura是一个意大利语,用于象征改进和转换过程的电线图。这也是面食形状的形状方式。
通过ia软件存储库或联系页面与查询,协作或反馈联系。另请参阅社交网络以获取最新更新。
Trafilatura广泛用于学术领域,主要用于数据获取。这是引用它的方法:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}共同开发的插件和其他软件包也有助于Web数据提取和分析的领域:
相应的帖子可以在语言位上找到。
令人印象深刻的是,您已经到达页面的结尾:谢谢您的兴趣!