Trafilatura는 웹에서 텍스트를 수집하고 RAW HTML을 구조화되고 의미있는 데이터로 전환하는 프로세스를 단순화하도록 설계된 최첨단 파이썬 패키지 및 명령 줄 도구 입니다. 여기에는 웹 크롤링, 다운로드, 스크래핑 및 주요 텍스트, 메타 데이터 및 의견 추출을 수행하기 위해 필요한 모든 발견 및 텍스트 처리 구성 요소가 포함됩니다. 편리하고 모듈 식 상태를 유지하는 것을 목표로합니다. 데이터베이스가 필요하지 않으며 출력은 일반적으로 사용되는 형식으로 변환 할 수 있습니다.
HTML 대량에서 필수 부품으로 이동하면 실제 컨텐츠에 중점을두고 헤더 및 바닥 글과 같은 반복 요소로 인한 노이즈를 피하고 선택한 정보로 데이터 및 메타 데이터를 이해함으로써 텍스트 품질과 관련된 많은 문제를 완화 할 수 있습니다. 추출기는 제한 노이즈 (정밀)와 모든 유효한 부품 (리콜)을 포함한 균형을 맞 춥니 다. 강력하고 합리적으로 빠릅니다 .
Trafilatura는 Huggingf
고급 웹 크롤링 및 텍스트 발견 :
온라인 및 오프라인 입력의 병렬 처리 :
주요 요소의 강력하고 구성 가능한 추출 :
다중 출력 형식 :
선택적 애드온 :
오픈 소스 커뮤니티의 지원으로 적극적으로 유지 관리 :
Trafilatura는 텍스트 추출 벤치 마크에서 다른 오픈 소스 라이브러리를 지속적으로 능가하여 웹 컨텐츠 추출의 효율성과 정확성을 보여줍니다. 추출기는 소음 제한과 모든 유효한 부품을 포함하는 균형을 유지하려고합니다.
자세한 내용은 최신 데이터 및 패키지로 평가를 실행하려면 벤치 마크 섹션 및 평가 판독 값을 참조하십시오.
Trafilatura를 시작하는 것은 간단합니다. 자세한 정보 및 자세한 안내서는 Trafilatura의 문서를 방문하십시오.
여러 언어로 된 비디오 자습서가 포함 된 YouTube 재생 목록 :
이 패키지는 Apache 2.0 라이센스에 따라 배포됩니다.
V1.8.0 이전 버전은 GPLV3+ 라이센스에 따라 있습니다.
모든 종류의 공헌을 환영합니다. 자세한 내용은 기고 페이지를 방문하십시오. 버그 보고서는 전용 문제 페이지에 제출할 수 있습니다.
문서를 확장하거나 버그 보고서, 기능 및 버그 수정을 제출 한 기고자에게 감사드립니다!
이 작업은 언어학 및 NLP의 교차로에서 박사 과정으로 시작되었으며,이 전문 지식은 수년에 걸쳐 Trafilatura를 형성하는 데 중요한 역할을 해왔습니다. 베를린-브랜든부르크 과학 아카데미 (DWDS 및 ZDL 유닛)에서 연구 목적으로 텍스트 데이터베이스를 만들기 위해 처음 시작된이 패키지는 계속 유지되고 있지만 향후 개발은 커뮤니티 지원에 달려 있습니다.
이 소프트웨어를 소중히 여기거나 제품에 의존하는 경우, 제품을 후원하고 코드베이스에 기여하는 것을 고려하십시오 . 귀하의 지원은이 인기있는 패키지를 유지하고 향상시켜 전 세계 개발자와 사용자의 성장, 견고성 및 접근성을 보장하는 데 도움이됩니다.
Trafilatura 는 정제 및 변환 과정을 상징하는 와이어 드로잉의 이탈리아 단어입니다. 또한 파스타 모양이 형성되는 방식이기도합니다.
문의, 협업 또는 피드백을 위해 소프트웨어 저장소 또는 연락처 페이지를 통해 연락하십시오. 최신 업데이트는 소셜 네트워크를 참조하십시오.
Trafilatura는 주로 데이터 수집에 학업 영역에서 널리 사용됩니다. 인용하는 방법은 다음과 같습니다.
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}공동으로 개발 된 플러그인 및 추가 패키지는 웹 데이터 추출 및 분석 분야에도 기여합니다.
해당 게시물은 언어 비트에서 찾을 수 있습니다.
인상적으로, 당신은 페이지의 끝에 도달했습니다. 관심 주셔서 감사합니다!