Tekstasi: NLP, sebelum dan sesudah spacy
textacy adalah perpustakaan Python untuk melakukan berbagai tugas pemrosesan bahasa alami (NLP), yang dibangun di atas perpustakaan spacy berkinerja tinggi. Dengan fundamental --- tokenisasi, penandaan bagian-dari-pidato, penguraian ketergantungan, dll. --- didelegasikan ke perpustakaan lain, textacy berfokus terutama pada tugas-tugas yang datang sebelumnya dan mengikuti setelahnya.
fitur
- Akses dan memperluas fungsionalitas inti Spacy untuk bekerja dengan satu atau banyak dokumen melalui metode yang nyaman dan ekstensi khusus
- Memuat kumpulan data yang disiapkan dengan konten teks dan metadata, dari pidato kongres hingga literatur historis hingga komentar reddit
- Bersihkan, menormalkan, dan jelajahi teks mentah sebelum memprosesnya dengan spacy
- Ekstrak informasi terstruktur dari dokumen yang diproses, termasuk n-gram, entitas, akronim, keyterm, dan triples SVO
- Bandingkan string dan urutan menggunakan berbagai metrik kesamaan
- Tokenize dan vektor dokumen kemudian melatih, menafsirkan, dan memvisualisasikan model topik
- Komputasi Keterbacaan Teks dan Statistik Keragaman Leksikal, termasuk tingkat kelas Flesch-Kincaid, kemudahan pembacaan flesch multibahasa, dan rasio tipe-token
... dan banyak lagi!
tautan
- Unduh: https://pypi.org/project/texticy
- Dokumentasi: https://textacy.readthedocs.io
- Kode Sumber: https://github.com/chartbeat-labs/textacy
- Pelacak Bug: https://github.com/chartbeat-labs/texticy/issues
pemeliharaan
Howdy, kalian semua.