Trafilatura est un package Python et un outil de ligne de commande de pointe conçu pour collecter du texte sur le Web et simplifier le processus de transformation du HTML brut en données structurées et significatives . Il inclut tous les composants de découverte et de traitement de texte nécessaires pour effectuer des rampes Web, des téléchargements, du grattage et de l'extraction des textes principaux, des métadonnées et des commentaires. Il vise à rester pratique et modulaire : aucune base de données n'est requise, la sortie peut être convertie en formats couramment utilisés.
Passer de la masse HTML aux parties essentielles peut atténuer de nombreux problèmes liés à la qualité du texte, en se concentrant sur le contenu réel , en évitant le bruit causé par des éléments récurrents comme les en-têtes et les pieds de page et en donnant un sens aux données et aux métadonnées avec des informations sélectionnées. L'extracteur collait un équilibre entre limiter le bruit (précision) et y compris toutes les pièces valides (rappel). Il est robuste et raisonnablement rapide .
Trafilatura est largement utilisé et intégré dans des milliers de projets de sociétés comme HuggingFace, IBM et Microsoft Research ainsi que des institutions comme l'Allen Institute, Stanford, le Tokyo Institute of Technology et l'Université de Munich.
Discouverte avancée du Web et de la découverte de texte:
Traitement parallèle des entrées en ligne et hors ligne:
Extraction robuste et configurable d'éléments clés:
Formats de sortie multiples:
Complète facultatif:
Entretenu activement avec le soutien de la communauté open source:
Trafilatura surpasse constamment d'autres bibliothèques open source dans des références d'extraction de texte, présentant son efficacité et sa précision dans l'extraction du contenu Web. L'extracteur essaie de trouver un équilibre entre limiter le bruit et y compris toutes les pièces valides.
Pour plus d'informations, consultez la section Benchmark et la lecture de l'évaluation pour exécuter l'évaluation avec les dernières données et packages.
Le début de Trafilatura est simple. Pour plus d'informations et des guides détaillés, visitez la documentation de Trafilatura:
Liste de lecture YouTube avec tutoriels vidéo dans plusieurs langues:
Ce package est distribué sous la licence Apache 2.0.
Les versions antérieures à la V1.8.0 sont sous licence GPLV3 +.
Les contributions de toutes sortes sont les bienvenues. Visitez la page contributive pour plus d'informations. Les rapports de bogues peuvent être déposés sur la page du problème dédié.
Un grand merci aux contributeurs qui ont étendu les documents ou soumis des rapports de bogues, des fonctionnalités et des bugs!
Ce travail a commencé comme un projet de doctorat au carrefour de la linguistique et de la PNL, cette expertise a contribué à façonner Trafilatura au fil des ans. Initialement lancé pour créer des bases de données de texte à des fins de recherche à la Berlin-Brandenburg Academy of Sciences (unités DWDS et ZDL), ce package continue d'être maintenu, mais son développement futur dépend du soutien communautaire.
Si vous appréciez ce logiciel ou en dépendez pour votre produit, envisagez de le parrainer et contribuez à sa base de code . Votre soutien aidera à maintenir et à améliorer ce package populaire, en garantissant sa croissance, sa robustesse et son accessibilité pour les développeurs et les utilisateurs du monde entier.
Trafilatura est un mot italien pour le dessin de fil symbolisant le processus de raffinement et de conversion. C'est aussi la façon dont les formes des pâtes se forment.
Contactez via IA le référentiel du logiciel ou la page de contact pour les demandes de renseignements, les collaborations ou les commentaires. Voir également les réseaux sociaux pour les dernières mises à jour.
Trafilatura est largement utilisé dans le domaine académique, principalement pour l'acquisition de données. Voici comment le citer:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}Les plugins développés conjointement et les packages supplémentaires contribuent également au domaine de l'extraction et de l'analyse des données Web:
Les messages correspondants peuvent être trouvés sur des bits de langue.
Impressionnant, vous avez atteint la fin de la page: Merci pour votre intérêt!