InlTK zielt darauf ab, verschiedene NLP -Aufgaben zu unterstützen, die ein Anwendungsentwickler möglicherweise für Indikat -Sprachen benötigt. Das Papier für die INLTK-Bibliothek wurde im NLP-OSS-Workshop des EMNLP-2020 akzeptiert. Hier ist der Link zum Papier
Checkout -detaillierte Dokumente sowie Installationsanweisungen unter https://inltk.readthedocs.io
| Sprache | Code |
|---|---|
| Hindi | Hi |
| Punjabi | pa |
| Gujarati | Gu |
| Kannada | KN |
| Malayalam | ml |
| Oriya | oder |
| Marathi | Herr |
| Bengali | bn |
| Tamil | ta |
| Urdu | ur |
| Nepali | ne |
| Sanskrit | sa |
| Englisch | en |
| Telugu | te |
| Sprache | Skript | Code |
|---|---|---|
| Hinglish (Hindi+Englisch) | lateinisch | hi-en |
| Tanglish (Tamil+Englisch) | lateinisch | ta-en |
| Manglisch (Malayalam+Englisch) | lateinisch | ml-en |
| Sprache | Repository | Datensatz für die Sprachmodellierung | Verwirrung von Ulmfit LM (Beim Validierungssatz) | Verwirrung von Transformerxl LM (Beim Validierungssatz) | Datensatz zur Klassifizierung verwendet | Einstufung: TEST SET -Genauigkeit | Einstufung: Testset MCC | Klassifizierung: Notizbuch zur Reproduzierbarkeit | Ulmfit -Einbettungsvisualisierung | Transformerxl -Einbettungsvisualisierung |
|---|---|---|---|---|---|---|---|---|---|---|
| Hindi | NLP für Hindi | Hindi -Wikipedia -Artikel - 172k Hindi -Wikipedia -Artikel - 55k | 34.06 35.87 | 26.09 34.78 | BBC -Nachrichtenartikel IIT Patna Movie Reviews IIT Patna Produktbewertungen | 78,75 57.74 75.71 | 0,71 0,37 0,59 | Notizbuch Notizbuch Notizbuch | Hindi -Einbettungsprojektion | Hindi -Einbettungsprojektion |
| Bengali | NLP für Bengali | Bengalische Wikipedia -Artikel | 41.2 | 39.3 | Bengali Nachrichtenartikel (Soham -Artikel) | 90.71 | 0,87 | Notizbuch | Bengali Einbettungsprojektion | Bengali Einbettungsprojektion |
| Gujarati | NLP für Gujarati | Gujarati Wikipedia Artikel | 34.12 | 28.12 | Inltk Headlines Corpus - Gujarati | 91.05 | 0,86 | Notizbuch | Gujarati Einbettungsprojektion | Gujarati Einbettungsprojektion |
| Malayalam | NLP für Malayalam | Malayalam Wikipedia Artikel | 26.39 | 25.79 | Inltk Headlines Corpus - Malayalam | 95,56 | 0,93 | Notizbuch | Malayalam Einbettungsprojektion | Malayalam Einbettungsprojektion |
| Marathi | NLP für Marathi | Marathi Wikipedia -Artikel | 18 | 17.42 | Inltk Headlines Corpus - Marathi | 92.40 | 0,85 | Notizbuch | Marathi Einbettungsprojektion | Marathi Einbettungsprojektion |
| Tamil | NLP für Tamil | Tamilische Wikipedia -Artikel | 19.80 | 17.22 | Inltk Headlines Corpus - Tamil | 95.22 | 0,92 | Notizbuch | Tamilische Einbettungsprojektion | Tamilische Einbettungsprojektion |
| Punjabi | NLP für Punjabi | Punjabi Wikipedia -Artikel | 24.40 | 14.03 | Indicnlp News Article Classification Dataset - Punjabi | 97.12 | 0,96 | Notizbuch | Punjabi Einbettungsprojektion | Punjabi Einbettungsprojektion |
| Kannada | NLP für Kannada | Kannada Wikipedia -Artikel | 70.10 | 61.97 | Indicnlp News Article Classification Dataset - Kannada | 98,87 | 0,98 | Notizbuch | Kannada Einbettungsprojektion | Kannada Einbettungsprojektion |
| Oriya | NLP für Oriya | Oriya Wikipedia -Artikel | 26.57 | 26.81 | Indicnlp News Article Classification Dataset - Oriya | 98.83 | 0,98 | Notizbuch | Oriya Einbettungsprojektion | Oriya Einbettungsprojektion |
| Sanskrit | NLP für Sanskrit | Sanskrit Wikipedia -Artikel | ~ 6 | ~ 3 | Sanskrit Shlokas -Datensatz | 84.3 (gültiger Satz) | Sanskrit -Einbettungsprojektion | Sanskrit -Einbettungsprojektion | ||
| Nepali | NLP für Nepali | Nepali Wikipedia Artikel | 31.5 | 29.3 | Nepali News -Datensatz | 98.5 (gültiger Satz) | Nepali Einbettungsprojektion | Nepali Einbettungsprojektion | ||
| Urdu | NLP für Urdu | Urdu Wikipedia -Artikel | 13.19 | 12.55 | Urdu News -Datensatz | 95.28 (gültiger Satz) | Urdu -Einbettungsprojektion | Urdu -Einbettungsprojektion | ||
| Telugu | NLP für Telugu | Telugu Wikipedia -Artikel | 27.47 | 29.44 | Telugu News -Datensatz Telugu News Andhra Jyoti | 95.4 92.09 | Notizbuch Notizbuch | Telugu Einbettungsprojektion | Telugu Einbettungsprojektion | |
| Tangish | NLP für Tanglish | Synthetischer Tanglish -Datensatz | 37,50 | - - | Dravidian Codemix Haseoc @ Fire 2020 Dravidian Codemix Sentiment Analysis @ Fire 2020 | F1 -Punktzahl: 0,88 F1 -Punktzahl: 0,62 | - - | Notizbuch Notizbuch | Tanglish -Einbettungsprojektion | - - |
| Manglisch | NLP für Manglish | Synthetischer Manglish -Datensatz | 45,84 | - - | Dravidian Codemix Haseoc @ Fire 2020 Dravidian Codemix Sentiment Analysis @ Fire 2020 | F1 -Punktzahl: 0,74 F1 -Punktzahl: 0,69 | - - | Notizbuch Notizbuch | Manglish -Einbettungsprojektion | - - |
| Hinglish | NLP für Hinglish | Synthetischer Hinglish -Datensatz | 86,48 | - - | - - | - - | - - | - - | Hinglish -Einbettungsprojektion | - - |
Hinweis: Das englische Modell wurde direkt von Fast.ai genommen.
| Sprache | Repository | Datensatz zur Klassifizierung verwendet | Ergebnisse bei Verwendung Komplettes Trainingssatz | Prozentualer Abnahme In der Größe der Trainingseinsatzgröße | Ergebnisse bei Verwendung Reduziertes Trainingssatz ohne Paraphrasen | Ergebnisse bei Verwendung Reduziertes Trainingssatz mit Paraphrasen |
|---|---|---|---|---|---|---|
| Hindi | NLP für Hindi | IIT Patna Movie Reviews | Genauigkeit: 57,74 MCC: 37,23 | 80% (2480 -> 496) | Genauigkeit: 47,74 MCC: 20,50 | Genauigkeit: 56.13 MCC: 34,39 |
| Bengali | NLP für Bengali | Bengali Nachrichtenartikel (Soham -Artikel) | Genauigkeit: 90.71 MCC: 87,92 | 99% (11284 -> 112) | Genauigkeit: 69,88 MCC: 61,56 | Genauigkeit: 74,06 MCC: 65,08 |
| Gujarati | NLP für Gujarati | Inltk Headlines Corpus - Gujarati | Genauigkeit: 91.05 MCC: 86.09 | 90% (5269 -> 526) | Genauigkeit: 80.88 MCC: 70,18 | Genauigkeit: 81.03 MCC: 70,44 |
| Malayalam | NLP für Malayalam | Inltk Headlines Corpus - Malayalam | Genauigkeit: 95,56 MCC: 93,29 | 90% (5036 -> 503) | Genauigkeit: 82.38 MCC: 73,47 | Genauigkeit: 84.29 MCC: 76,36 |
| Marathi | NLP für Marathi | Inltk Headlines Corpus - Marathi | Genauigkeit: 92.40 MCC: 85,23 | 95% (9672 -> 483) | Genauigkeit: 84.13 MCC: 68,59 | Genauigkeit: 84,55 MCC: 69.11 |
| Tamil | NLP für Tamil | Inltk Headlines Corpus - Tamil | Genauigkeit: 95.22 MCC: 92.70 | 95% (5346 -> 267) | Genauigkeit: 86,25 MCC: 79,42 | Genauigkeit: 89,84 MCC: 84,63 |
Weitere Informationen zur Implementierung oder zur Reproduktion der Ergebnisse finden Sie in den jeweiligen Repositorys.
Wenn Sie inlTK Unterstützung für die Sprache Ihrer eigenen Wahl hinzufügen möchten, beginnen Sie hier mit der Überprüfung/Auferklärung eines Problems hier
Bitte überprüfen Sie die Schritte, die ich hier für Telugu erwähnt hatte. Sie sollten auch für andere Sprachen fast ähnlich sein.
Wenn Sie die Modelle von INLTK aufnehmen und mit Ihrem eigenen Datensatz verfeinern oder Ihre eigenen benutzerdefinierten Modelle darüber erstellen möchten, lesen Sie bitte die Repositorys in der obigen Tabelle, um die Sprache Ihrer Wahl zu erhalten. Die obigen Repositorys enthalten Links zu Datensätzen, vorbereiteten Modellen, Klassifikatoren und allen Code dafür.
Wenn Sie eine bestimmte Funktionalität in INLTK wünschen - starten Sie hier ein Problem
Shout out if you want to help :)
Shout out if you want to lead :)
Wenn Sie diese Bibliothek in Ihren Forschungen verwenden, sollten Sie sich bitte angeben:
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}