trafilatura下载trafilatura源代码下载

trafilatura

其他源码

trafilatura-2.0.0

下载

Trafilatura：在网络上发现和提取文本数据

介绍

Trafilatura是一种尖端的Python软件包和命令行工具，旨在收集Web上的文本，并简化将RAW HTML变成结构化的，有意义的数据的过程。它包括所有必要的发现和文本处理组件，以执行主要文本，元数据和评论的网络爬行，下载，刮擦和提取。它旨在保持方便和模块化：不需要数据库，可以将输出转换为常用格式。

从HTML大量到基本零件可以通过专注于实际内容来减轻与文本质量有关的许多问题，从而避免了由标头和页脚等经常出现的元素以及使用所选信息来了解数据和元数据。提取器在限制噪声（精度）和包括所有有效零件（召回）之间达到平衡。这是强大且合理的快速。

Huggingface，IBM和Microsoft Research等公司以及艾伦学院，斯坦福大学，东京理工学院和慕尼黑大学等公司将Trafilatura广泛使用，并将其集成到数千个项目中。

特征

高级网络爬行和文字发现：
- 支持站点地图（TXT，XML）和Feeds（Atom，JSON，RSS）
- 智能爬行和URL管理（过滤和重复数据删除）
在线和离线输入的并行处理：
- 实时URL，有效且礼貌地处理下载队列
- 先前已下载的HTML文件和解析的HTML树
关键元素的强大和可配置提取：
- 主要文本（常见的模式和通用算法（如JustExt）和可读性）
- 元数据（标题，作者，日期，站点名称，类别和标签）
- 格式和结构：段落，标题，列表，引号，代码，销售折断，在线文本格式格式
- 可选元素：评论，链接，图像，表格
多个输出格式：
- TXT和MARKDOWN
- CSV
- JSON
- HTML，XML和XML-TEI
可选附加组件：
- 提取内容的语言检测
- 速度优化
在开源社区的支持下积极维持：
- 定期更新，功能添加和优化
- 综合文档

评估和替代方案

Trafilatura在文本提取基准测试中始终优于其他开源库，展示其在提取Web内容方面的效率和准确性。提取器试图在限制噪声和包括所有有效零件之间取得平衡。

有关更多信息，请参见“基准部分”和“评估回顾”，以使用最新数据和软件包进行评估。

其他评估：

ScrapingHub的文章提取基准中最有效的开源库
根据Bien Choisir儿子的最佳整体工具Outil d'ration decontenuàPartirdu Web（Lejeune＆Barbaresi 2020）
Rouge-lsum的最佳单个工具在Web内容提取算法的经验比较中平均F1分数（Bevendorff等，2023）

用法和文档

Trafilatura入门很简单。有关更多信息和详细指南，请访问Trafilatura的文档：

安装
用法：在命令行，与python一起
核心Python功能
互动Python笔记本：Trafilatura概述
教程和用例

YouTube播放列表，带有几种语言的视频教程：

网络刮擦教程和How-TOS

执照

此软件包由Apache 2.0许可证分配。

V1.8.0之前的版本在GPLV3+许可下。

贡献

欢迎各种贡献。访问贡献页面以获取更多信息。错误报告可以在专用问题页面上提交。

非常感谢将文档扩展或提交错误报告，功能和错误的贡献者！

语境

这项工作始于语言学和NLP十字路口的博士学位项目，多年来，这种专业知识在塑造Trafilatura方面发挥了作用。最初推出的目的是在柏林 - 布兰登堡科学院（DWDS和ZDL单元）上创建用于研究目的的文本数据库，该软件包继续保持维护，但其未来的发展取决于社区的支持。

如果您重视此软件或依赖于产品，请考虑赞助并为其代码库做出贡献。您的支持将有助于维护和增强这一受欢迎的软件包，确保其增长，稳健性和可访问性为世界各地的开发人员和用户提供。

Trafilatura是一个意大利语，用于象征改进和转换过程的电线图。这也是面食形状的形状方式。

作者

通过ia软件存储库或联系页面与查询，协作或反馈联系。另请参阅社交网络以获取最新更新。

Barbaresi，A。Trafilatura：用于文本发现和提取的Web刮擦库和命令行工具，ACL/ijcnlp 2021的会议记录：系统演示，2021年，p。 122-131。
Barbaresi，A。“带开源软件的通用Web内容提取”，Konvens 2019论文集，万花筒摘要，2019年。
Barbaresi，A。“元数据增强网络公司的有效构建”，第10网的论文集作为Corpus Workshop（WAC-X），2016年。

引用trafilatura

Trafilatura广泛用于学术领域，主要用于数据获取。这是引用它的方法：

@inproceedings{barbaresi-2021-trafilatura,
  title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
  author = " Barbaresi, Adrien " ,
  booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
  pages = " 122--131 " ,
  publisher = " Association for Computational Linguistics " ,
  url = " https://aclanthology.org/2021.acl-demo.15 " ,
  year = 2021,
}

软件生态系统

共同开发的插件和其他软件包也有助于Web数据提取和分析的领域：

相应的帖子可以在语言位上找到。

令人印象深刻的是，您已经到达页面的结尾：谢谢您的兴趣！

展开

附加信息

版本 trafilatura-2.0.0
类型其他源码
更新时间 2025-04-15
大小 30.3MB
来自于 Github

trafilatura

Trafilatura：在网络上发现和提取文本数据

介绍

特征

评估和替代方案

其他评估：

用法和文档

执照

贡献

语境

作者

引用trafilatura

软件生态系统

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express