INLTK bertujuan untuk memberikan dukungan di luar kotak untuk berbagai tugas NLP yang mungkin dibutuhkan pengembang aplikasi untuk bahasa indic. Kertas untuk Perpustakaan INLTK telah diterima di lokakarya NLP-OSS EMNLP-2020. Inilah tautan ke koran
Periksa dokumen terperinci bersama dengan instruksi instalasi di https://inltk.readthedocs.io
| Bahasa | Kode |
|---|---|
| Hindi | Hai |
| Punjabi | pa |
| Gujarati | gu |
| Kannada | kn |
| Malayalam | ml |
| Oriya | atau |
| Marathi | Tn. |
| Benggala | bn |
| Tamil | ta |
| Urdu | ur |
| Nepal | ne |
| Sansekerta | sa |
| Bahasa inggris | en |
| Telugu | te |
| Bahasa | Naskah | Kode |
|---|---|---|
| Hinglish (Hindi+Bahasa Inggris) | Latin | hi-en |
| Tanglish (Tamil+Bahasa Inggris) | Latin | ta-en |
| Manglish (Malayalam+Bahasa Inggris) | Latin | ml-en |
| Bahasa | Gudang | Dataset yang digunakan untuk pemodelan bahasa | Kebingungan Ulmfit LM (pada set validasi) | Kebingungan Transformerxl LM (pada set validasi) | Dataset yang digunakan untuk klasifikasi | Klasifikasi: Akurasi set tes | Klasifikasi: Tes Set MCC | Klasifikasi: Buku catatan untuk reproduktifitas | Visualisasi embeddings ulmfit | Transformerxl Visualisasi Embeddings |
|---|---|---|---|---|---|---|---|---|---|---|
| Hindi | NLP untuk Hindi | Artikel Wikipedia Hindi - 172k Artikel Wikipedia Hindi - 55k | 34.06 35.87 | 26.09 34.78 | Artikel Berita BBC Ulasan film IIT Patna Ulasan Produk IIT Patna | 78.75 57.74 75.71 | 0.71 0.37 0,59 | Buku catatan Buku catatan Buku catatan | Proyeksi Hindi Embeddings | Proyeksi Hindi Embeddings |
| Benggala | NLP untuk Bengali | Artikel Wikipedia Bengali | 41.2 | 39.3 | Artikel Berita Bengali (artikel SOHAM) | 90.71 | 0.87 | Buku catatan | Proyeksi Embeddings Bengali | Proyeksi Embeddings Bengali |
| Gujarati | NLP untuk Gujarati | Artikel Wikipedia Gujarati | 34.12 | 28.12 | Inltk Headlines Corpus - Gujarati | 91.05 | 0.86 | Buku catatan | Proyeksi Embeddings Gujarati | Proyeksi Embeddings Gujarati |
| Malayalam | NLP untuk Malayalam | Artikel Malayalam Wikipedia | 26.39 | 25.79 | Inltk Headline Corpus - Malayalam | 95.56 | 0.93 | Buku catatan | Proyeksi Malayalam Embeddings | Proyeksi Malayalam Embeddings |
| Marathi | NLP untuk Marathi | Artikel Marathi Wikipedia | 18 | 17.42 | Inltk Headlines Corpus - Marathi | 92.40 | 0.85 | Buku catatan | Proyeksi Embeddings Marathi | Proyeksi Embeddings Marathi |
| Tamil | NLP untuk Tamil | Artikel Wikipedia Tamil | 19.80 | 17.22 | Inltk Headline Corpus - Tamil | 95.22 | 0.92 | Buku catatan | Proyeksi Tamil Embeddings | Proyeksi Tamil Embeddings |
| Punjabi | NLP untuk Punjabi | Artikel Wikipedia Punjabi | 24.40 | 14.03 | Dataset Klasifikasi Artikel Berita IndicNLP - Punjabi | 97.12 | 0.96 | Buku catatan | Proyeksi Embeddings Punjabi | Proyeksi Embeddings Punjabi |
| Kannada | NLP untuk Kannada | Artikel Wikipedia Kannada | 70.10 | 61.97 | Dataset Klasifikasi Artikel Berita IndicNLP - Kannada | 98.87 | 0.98 | Buku catatan | Proyeksi Embeddings Kannada | Proyeksi Embeddings Kannada |
| Oriya | NLP untuk Oriya | Artikel Oriya Wikipedia | 26.57 | 26.81 | Dataset Klasifikasi Artikel Berita IndicNLP - Oriya | 98.83 | 0.98 | Buku catatan | Proyeksi Oriya Embeddings | Proyeksi Oriya Embeddings |
| Sansekerta | NLP untuk Sanskerta | Artikel Wikipedia Sanskerta | ~ 6 | ~ 3 | Dataset Sanskerta Shlokas | 84.3 (set valid) | Proyeksi Embeddings Sanskerta | Proyeksi Embeddings Sanskerta | ||
| Nepal | NLP untuk Nepal | Artikel Wikipedia Nepal | 31.5 | 29.3 | Dataset Berita Nepal | 98.5 (set valid) | Proyeksi Nepal Embeddings | Proyeksi Nepal Embeddings | ||
| Urdu | NLP untuk Urdu | Artikel Wikipedia Urdu | 13.19 | 12.55 | Dataset Berita Urdu | 95.28 (set valid) | Proyeksi Urdu Embeddings | Proyeksi Urdu Embeddings | ||
| Telugu | NLP untuk Telugu | Artikel Wikipedia Telugu | 27.47 | 29.44 | Dataset Berita Telugu Berita Telugu Andhra Jyoti | 95.4 92.09 | Buku catatan Buku catatan | Proyeksi Telugu Embeddings | Proyeksi Telugu Embeddings | |
| Tanglish | NLP untuk Tanglish | Dataset Tanglish Sintetis | 37.50 | - | Dravidian Codemix Hasoc @ Fire 2020 Analisis Sentimen Codemix Dravidian @ Fire 2020 | Skor F1: 0,88 Skor F1: 0,62 | - | Buku catatan Buku catatan | Proyeksi embeddings tanglish | - |
| MANGGLISH | NLP untuk Manglish | Dataset Manglish Sintetis | 45.84 | - | Dravidian Codemix Hasoc @ Fire 2020 Analisis Sentimen Codemix Dravidian @ Fire 2020 | Skor F1: 0,74 Skor F1: 0,69 | - | Buku catatan Buku catatan | Proyeksi embeddings manglish | - |
| Hinglish | NLP untuk Hinglish | Dataset Hinglish Sintetis | 86.48 | - | - | - | - | - | Proyeksi Embeddings Hinglish | - |
Catatan: Model bahasa Inggris telah langsung diambil dari Fast.ai
| Bahasa | Gudang | Dataset yang digunakan untuk klasifikasi | Hasil menggunakan set pelatihan lengkap | Penurunan persentase dalam ukuran set pelatihan | Hasil menggunakan set pelatihan yang dikurangi tanpa parafrase | Hasil menggunakan set pelatihan yang dikurangi dengan parafrase |
|---|---|---|---|---|---|---|
| Hindi | NLP untuk Hindi | Ulasan film IIT Patna | Akurasi: 57.74 MCC: 37.23 | 80% (2480 -> 496) | Akurasi: 47.74 MCC: 20.50 | Akurasi: 56.13 MCC: 34.39 |
| Benggala | NLP untuk Bengali | Artikel Berita Bengali (artikel SOHAM) | Akurasi: 90.71 MCC: 87.92 | 99% (11284 -> 112) | Akurasi: 69.88 MCC: 61.56 | Akurasi: 74.06 MCC: 65.08 |
| Gujarati | NLP untuk Gujarati | Inltk Headlines Corpus - Gujarati | Akurasi: 91.05 MCC: 86.09 | 90% (5269 -> 526) | Akurasi: 80.88 MCC: 70.18 | Akurasi: 81.03 MCC: 70.44 |
| Malayalam | NLP untuk Malayalam | Inltk Headline Corpus - Malayalam | Akurasi: 95.56 MCC: 93.29 | 90% (5036 -> 503) | Akurasi: 82.38 MCC: 73.47 | Akurasi: 84.29 MCC: 76.36 |
| Marathi | NLP untuk Marathi | Inltk Headlines Corpus - Marathi | Akurasi: 92.40 MCC: 85.23 | 95% (9672 -> 483) | Akurasi: 84.13 MCC: 68.59 | Akurasi: 84.55 MCC: 69.11 |
| Tamil | NLP untuk Tamil | Inltk Headline Corpus - Tamil | Akurasi: 95.22 MCC: 92.70 | 95% (5346 -> 267) | Akurasi: 86.25 MCC: 79.42 | Akurasi: 89.84 MCC: 84.63 |
Untuk detail lebih lanjut seputar implementasi atau untuk mereproduksi hasil, periksa repositori masing -masing.
Jika Anda ingin menambahkan dukungan untuk bahasa pilihan Anda sendiri ke INLTK, silakan mulai dengan memeriksa/mengangkat masalah di sini
Silakan periksa langkah -langkah yang saya sebutkan di sini untuk memulai Telugu. Mereka juga harus hampir serupa untuk bahasa lain.
Jika Anda ingin mengambil model INLTK dan memperbaiki mereka dengan dataset Anda sendiri atau membangun model khusus Anda sendiri di atasnya, silakan periksa repositori di tabel di atas untuk bahasa pilihan Anda. Repositori di atas berisi tautan ke set data, model pretrained, pengklasifikasi dan semua kode untuk itu.
Jika Anda menginginkan fungsionalitas tertentu di INLTK - mulailah dengan memeriksa/mengangkat masalah di sini
Shout out if you want to help :)
Shout out if you want to lead :)
Jika Anda menggunakan perpustakaan ini dalam riset Anda, harap pertimbangkan mengutip:
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}