Trafilatura es un paquete Python de vanguardia y una herramienta de línea de comandos diseñada para recopilar texto en la web y simplificar el proceso de convertir HTML sin procesar en datos estructurados y significativos . Incluye todos los componentes necesarios de procesamiento de descubrimiento y texto para realizar el rastreo web, las descargas, el raspado y la extracción de textos principales, metadatos y comentarios. Su objetivo es mantenerse a mano y modular : no se requiere una base de datos, la salida se puede convertir en formatos de uso común.
Pasar de las piezas a granel HTML a piezas esenciales puede aliviar muchos problemas relacionados con la calidad del texto, centrándose en el contenido real , evitando el ruido causado por elementos recurrentes como encabezados y pies de página y al dar sentido a los datos y metadatos con información seleccionada. El extractor ataca un equilibrio entre el ruido limitante (precisión) e incluyendo todas las partes válidas (retiro). Es robusto y razonablemente rápido .
Trafilatura es ampliamente utilizado e integrado en miles de proyectos por compañías como Huggingface, IBM y Microsoft Research, así como instituciones como el Allen Institute, Stanford, el Instituto de Tecnología de Tokio y la Universidad de Munich.
Arrowling web avanzado y descubrimiento de texto:
Procesamiento paralelo de entrada en línea y fuera de línea:
Extracción robusta y configurable de elementos clave:
Formatos de salida múltiples:
Complementos opcionales:
Mantenido activamente con el apoyo de la comunidad de código abierto:
Trafilatura supera constantemente a otras bibliotecas de código abierto en puntos de referencia de extracción de texto, mostrando su eficiencia y precisión en la extracción de contenido web. El extractor intenta lograr un equilibrio entre el ruido limitante e incluir todas las partes válidas.
Para obtener más información, consulte la sección Benchmark y el ReadMe de evaluación para ejecutar la evaluación con los últimos datos y paquetes.
Comenzar con Trafilatura es sencillo. Para obtener más información y guías detalladas, visite la documentación de Trafilatura:
Lista de reproducción de YouTube con tutoriales de video en varios idiomas:
Este paquete se distribuye bajo la licencia Apache 2.0.
Las versiones anteriores a V1.8.0 están bajo la licencia GPLV3+.
Las contribuciones de todo tipo son bienvenidas. Visite la página contribuyente para obtener más información. Los informes de errores se pueden archivar en la página de emisión dedicada.
¡Muchas gracias a los colaboradores que extendieron los documentos o presentaron informes de errores, características y correcciones de errores!
Este trabajo comenzó como un proyecto de doctorado en la encrucijada de la lingüística y la PNL, esta experiencia ha sido fundamental para dar forma a Trafilatura a lo largo de los años. Inicialmente lanzado para crear bases de datos de texto para fines de investigación en la Academia de Ciencias de Berlín-Brandenburgo (unidades DWDS y ZDL), este paquete continúa siendo mantenido pero su desarrollo futuro depende del apoyo de la comunidad.
Si valora este software o depende de él para su producto, considere patrocinarlo y contribuir a su base de código . Su soporte ayudará a mantener y mejorar este paquete popular, asegurando su crecimiento, robustez y accesibilidad para desarrolladores y usuarios de todo el mundo.
Trafilatura es una palabra italiana para el dibujo de alambre que simboliza el proceso de refinamiento y conversión. También es la forma en que se forman formas de pasta.
Comuníquese con IA el repositorio de software o la página de contacto para consultas, colaboraciones o comentarios. Vea también las redes sociales para las últimas actualizaciones.
Trafilatura se usa ampliamente en el dominio académico, principalmente para la adquisición de datos. Aquí está cómo citarlo:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}Los complementos desarrollados conjuntamente y los paquetes adicionales también contribuyen al campo de la extracción y análisis de datos web:
Las publicaciones correspondientes se pueden encontrar en bits de lenguaje.
Impresionante, has llegado al final de la página: ¡Gracias por tu interés!