O Trafilatura é um pacote python de ponta e uma ferramenta de linha de comando projetada para coletar texto na Web e simplificar o processo de transformar HTML bruto em dados estruturados e significativos . Inclui todos os componentes necessários de descoberta e processamento de texto para executar rastreamento da web, downloads, raspagem e extração de textos principais, metadados e comentários. O objetivo é permanecer útil e modular : nenhum banco de dados é necessário, a saída pode ser convertida em formatos comumente usados.
Passar do volume HTML para peças essenciais pode aliviar muitos problemas relacionados à qualidade do texto, concentrando -se no conteúdo real , evitando o ruído causado por elementos recorrentes, como cabeçalhos e rodapés e entendendo os dados e metadados com informações selecionadas. O extrator atinge um equilíbrio entre o ruído limitante (precisão) e a inclusão de todas as partes válidas (recall). É robusto e razoavelmente rápido .
A Trafilatura é amplamente utilizada e integrada a milhares de projetos por empresas como Huggingface, IBM e Microsoft Research, bem como instituições como o Instituto Allen, Stanford, o Instituto de Tecnologia de Tóquio e a Universidade de Munique.
Rastreamento avançado da web e descoberta de texto:
Processamento paralelo de entrada online e offline:
Extração robusta e configurável dos elementos -chave:
Vários formatos de saída:
Complementos opcionais:
Mantido ativamente com o apoio da comunidade de código aberto:
A Trafilatura supera consistentemente outras bibliotecas de código aberto nos benchmarks de extração de texto, mostrando sua eficiência e precisão na extração de conteúdo da Web. O extrator tenta encontrar um equilíbrio entre limitar o ruído e a inclusão de todas as peças válidas.
Para obter mais informações, consulte a seção de referência e o ReadMe de avaliação para executar a avaliação com os dados e pacotes mais recentes.
Introdução ao Trafilatura é direta. Para mais informações e guias detalhados, visite a documentação da Trafilatura:
Lista de reprodução do YouTube com tutoriais em vídeo em vários idiomas:
Este pacote é distribuído sob a licença Apache 2.0.
As versões anteriores à v1.8.0 estão sob licença GPLV3+.
Contribuições de todos os tipos são bem -vindos. Visite a página contribuinte para obter mais informações. Os relatórios de bugs podem ser arquivados na página de emissão dedicada.
Muito obrigado aos colaboradores que estenderam os documentos ou enviaram relatórios, recursos e bugs de bugs!
Este trabalho começou como um projeto de doutorado na encruzilhada da Linguística e da PNL, essa experiência tem sido fundamental para moldar a trafilatura ao longo dos anos. Inicialmente lançado para criar bancos de dados de texto para fins de pesquisa na Academia de Ciências de Berlim-Brandenburg (unidades DWDs e ZDL), este pacote continua sendo mantido, mas seu desenvolvimento futuro depende do apoio da comunidade.
Se você valorizar este software ou depender dele para o seu produto, considere patrociná -lo e contribuir para sua base de código . Seu suporte ajudará a manter e aprimorar esse pacote popular, garantindo seu crescimento, robustez e acessibilidade para desenvolvedores e usuários em todo o mundo.
Trafilatura é uma palavra italiana para desenho de arame, simbolizando o processo de refinamento e conversão. É também a maneira como as formas das massas são formadas.
Entre em contato via IA, o repositório de software ou a página de contato para obter consultas, colaborações ou feedback. Veja também as redes sociais para obter as atualizações mais recentes.
A trafilatura é amplamente utilizada no domínio acadêmico, principalmente para aquisição de dados. Aqui está como citar:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}Plugins desenvolvidos em conjunto e pacotes adicionais também contribuem para o campo da extração e análise de dados da Web:
As postagens correspondentes podem ser encontradas em bits de linguagem.
Impressionante, você chegou ao final da página: Obrigado pelo seu interesse!