Trafilatura ist ein hochmodernes Python-Paket und ein Befehlszeilen-Tool , das Text im Web sammelt und den Prozess der Umwandlung von RAW-HTML in strukturierte, aussagekräftige Daten vereinfacht . Es enthält alle notwendigen Erkennungs- und Textverarbeitungskomponenten, um Web -Crawling, Downloads, Kratzen und Extraktion von Haupttexten, Metadaten und Kommentaren durchzuführen. Es zielt darauf ab, handlich und modular zu bleiben: Es ist keine Datenbank erforderlich, die Ausgabe kann in häufig verwendete Formate umgewandelt werden.
Wenn Sie von HTML -Masse zu wesentlichen Teilen weiten, können Sie viele Probleme im Zusammenhang mit der Textqualität lindern, indem Sie sich auf den tatsächlichen Inhalt konzentrieren , das durch wiederkehrende Elemente wie Header und Fußzeilen verursachte Rauschen und durch die Verständnis der Daten und der Metadaten mit ausgewählten Informationen zu vermeiden. Der Extraktor schlägt ein Gleichgewicht zwischen begrenztem Rauschen (Präzision) und einschließlich aller gültigen Teile (Rückruf). Es ist robust und einigermaßen schnell .
Trafilatura wird von Unternehmen wie Huggingface, IBM und Microsoft Research sowie Institutionen wie dem Allen Institute, Stanford, dem Tokyo Institute of Technology und der University of München in Tausende von Projekten und in Tausende von Projekten integriert und integriert.
Erweiterte Webkriech- und Textentdeckung:
Parallele Verarbeitung von Online- und Offline -Eingaben:
Robuste und konfigurierbare Extraktion von Schlüsselelementen:
Mehrere Ausgangsformate:
Optionale Add-Ons:
Aktiv mit Unterstützung der Open-Source-Community gepflegt:
Trafilatura übertrifft konsequent andere Open-Source-Bibliotheken in den Benchmarks von Textextraktion und zeigt ihre Effizienz und Genauigkeit beim Extrahieren von Webinhalten. Der Extraktor versucht, ein Gleichgewicht zwischen begrenztem Rauschen und einschließlich aller gültigen Teile zu erreichen.
Weitere Informationen finden Sie im Abschnitt Benchmark und im Bewertungs -Readme, um die Bewertung mit den neuesten Daten und Paketen auszuführen.
Der Einstieg mit Trafilatura ist unkompliziert. Weitere Informationen und detaillierte Anleitungen finden Sie in der Dokumentation von Trafilatura:
YouTube -Playlist mit Video -Tutorials in mehreren Sprachen:
Dieses Paket wird unter der Apache 2.0 -Lizenz verteilt.
Versionen vor v1.8.0 stehen unter gplv3+ lizenz.
Beiträge aller Art sind willkommen. Besuchen Sie die beitragende Seite für weitere Informationen. Fehlerberichte können auf der dedizierten Ausgabeseite eingereicht werden.
Vielen Dank an die Mitwirkenden, die die Dokumente erweitert oder Fehlerberichte, Funktionen und Bugfixes eingereicht haben!
Diese Arbeit begann als Doktorandenprojekt am Crossroad of Linguistics und NLP. Dieses Know -how war maßgeblich an der Gestaltung von Trafilatura im Laufe der Jahre beteiligt. Dieses Paket wurde zunächst gestartet, um Textdatenbanken für Forschungszwecke an der Berlin-Brandenburg Academy of Sciences (DWDs und ZDL-Einheiten) zu erstellen. Seine zukünftige Entwicklung hängt jedoch von der Unterstützung der Gemeinschaft ab.
Wenn Sie diese Software schätzen oder für Ihr Produkt davon abhängig sind, sollten Sie sie sponsern und zu seiner Codebasis beitragen . Ihre Unterstützung wird dazu beitragen, dieses beliebte Paket aufrechtzuerhalten und zu verbessern und für Entwickler und Benutzer auf der ganzen Welt Wachstum, Robustheit und Zugänglichkeit zu gewährleisten.
Trafilatura ist ein italienisches Wort für die Drahtzeichnung, die den Verfeinerungs- und Umwandlungsprozess symbolisiert. Es ist auch die Art und Weise, wie Nudelformen gebildet werden.
Erreichen Sie über IA das Software -Repository oder die Kontaktseite für Anfragen, Zusammenarbeit oder Feedback. Siehe auch soziale Netzwerke für die neuesten Updates.
Trafilatura wird im akademischen Bereich weit verbreitet, hauptsächlich für die Datenerfassung. Hier erfahren Sie, wie man es zitiert:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}Gemeinsam entwickelte Plugins und zusätzliche Pakete tragen auch zum Gebiet der Webdatenextraktion und -analyse bei:
Entsprechende Beiträge finden Sie auf Sprachbits.
Beeindruckend, Sie haben das Ende der Seite erreicht: Vielen Dank für Ihr Interesse!