Trafilatura adalah paket python mutakhir dan alat baris perintah yang dirancang untuk mengumpulkan teks di web dan menyederhanakan proses mengubah HTML mentah menjadi data yang terstruktur dan bermakna . Ini mencakup semua komponen pemrosesan penemuan dan teks yang diperlukan untuk melakukan perayapan web, unduhan, pengikisan, dan ekstraksi teks utama, metadata, dan komentar. Ini bertujuan untuk tetap berguna dan modular : tidak diperlukan database, output dapat dikonversi menjadi format yang umum digunakan.
Beralih dari HTML Bulk ke bagian -bagian penting dapat mengurangi banyak masalah yang berkaitan dengan kualitas teks, dengan berfokus pada konten yang sebenarnya , menghindari kebisingan yang disebabkan oleh elemen berulang seperti header dan footer dan dengan memahami data dan metadata dengan informasi yang dipilih. Ekstraktor menyerang keseimbangan antara kebisingan pembatas (presisi) dan termasuk semua bagian yang valid (Recall). Ini kuat dan cukup cepat .
Trafilatura banyak digunakan dan diintegrasikan ke dalam ribuan proyek oleh perusahaan seperti HuggingFace, IBM, dan Microsoft Research serta lembaga -lembaga seperti Allen Institute, Stanford, Tokyo Institute of Technology, dan University of Munich.
Web Crawling dan Penemuan Teks Lanjutan:
Pemrosesan paralel input online dan offline:
Ekstraksi elemen kunci yang kuat dan dapat dikonfigurasi:
Beberapa format output:
Add-on opsional:
Secara aktif dipelihara dengan dukungan dari komunitas open-source:
Trafilatura secara konsisten mengungguli perpustakaan open-source lainnya dalam tolok ukur ekstraksi teks, menampilkan efisiensi dan akurasinya dalam mengekstraksi konten web. Ekstraktor mencoba untuk mencapai keseimbangan antara membatasi kebisingan dan termasuk semua bagian yang valid.
Untuk informasi lebih lanjut, lihat bagian Benchmark dan ReadMe Evaluasi untuk menjalankan evaluasi dengan data dan paket terbaru.
Memulai dengan Trafilatura sangat mudah. Untuk informasi lebih lanjut dan panduan terperinci, kunjungi dokumentasi Trafilatura:
Daftar putar YouTube dengan tutorial video dalam beberapa bahasa:
Paket ini didistribusikan di bawah lisensi Apache 2.0.
Versi sebelum v1.8.0 berada di bawah lisensi GPLV3+.
Kontribusi dari semua jenis dipersilakan. Kunjungi halaman yang berkontribusi untuk informasi lebih lanjut. Laporan bug dapat diajukan pada halaman masalah khusus.
Terima kasih banyak kepada para kontributor yang memperluas dokumen atau mengirimkan laporan bug, fitur, dan perbaikan bug!
Pekerjaan ini dimulai sebagai proyek PhD di persimpangan linguistik dan NLP, keahlian ini telah berperan dalam membentuk trafilatura selama bertahun -tahun. Awalnya diluncurkan untuk membuat database teks untuk tujuan penelitian di Berlin-Brandenburg Academy of Sciences (DWDS dan ZDL Units), paket ini terus dipertahankan tetapi pengembangan masa depannya tergantung pada dukungan masyarakat.
Jika Anda menghargai perangkat lunak ini atau bergantung pada produk Anda, pertimbangkan untuk mensponsori dan berkontribusi pada basis kode . Dukungan Anda akan membantu mempertahankan dan meningkatkan paket populer ini, memastikan pertumbuhan, ketahanan, dan aksesibilitasnya bagi pengembang dan pengguna di seluruh dunia.
Trafilatura adalah kata Italia untuk menggambar kawat yang melambangkan proses penyempurnaan dan konversi. Ini juga merupakan cara bentuk pasta terbentuk.
Jangkau melalui IA repositori perangkat lunak atau halaman kontak untuk pertanyaan, kolaborasi, atau umpan balik. Lihat juga jejaring sosial untuk pembaruan terbaru.
Trafilatura banyak digunakan dalam domain akademik, terutama untuk akuisisi data. Inilah cara mengutipnya:
@inproceedings{barbaresi-2021-trafilatura,
title = {{Trafilatura: A Web Scraping Library and Command-Line Tool for Text Discovery and Extraction}},
author = " Barbaresi, Adrien " ,
booktitle = " Proceedings of the Joint Conference of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing: System Demonstrations " ,
pages = " 122--131 " ,
publisher = " Association for Computational Linguistics " ,
url = " https://aclanthology.org/2021.acl-demo.15 " ,
year = 2021,
}Plugin yang dikembangkan bersama dan paket tambahan juga berkontribusi pada bidang ekstraksi dan analisis data web:
Posting yang sesuai dapat ditemukan di bit bahasa.
Mengesankan, Anda telah mencapai akhir halaman: Terima kasih atas minat Anda!