inltk -Download - inltk Source Code Download

inltk

Anderer Quellcode

Code-Mixed Languages support

Herunterladen

Natürliches Sprach -Toolkit für Indic -Sprachen (INLTK)

InlTK zielt darauf ab, verschiedene NLP -Aufgaben zu unterstützen, die ein Anwendungsentwickler möglicherweise für Indikat -Sprachen benötigt. Das Papier für die INLTK-Bibliothek wurde im NLP-OSS-Workshop des EMNLP-2020 akzeptiert. Hier ist der Link zum Papier

Dokumentation

Checkout -detaillierte Dokumente sowie Installationsanweisungen unter https://inltk.readthedocs.io

Unterstützte Sprachen

Muttersprachen

Sprache	Code
Hindi	Hi
Punjabi	pa
Gujarati	Gu
Kannada	KN
Malayalam	ml
Oriya	oder
Marathi	Herr
Bengali	bn
Tamil	ta
Urdu	ur
Nepali	ne
Sanskrit	sa
Englisch	en
Telugu	te

Code gemischte Sprachen

Sprache	Skript	Code
Hinglish (Hindi+Englisch)	lateinisch	hi-en
Tanglish (Tamil+Englisch)	lateinisch	ta-en
Manglisch (Malayalam+Englisch)	lateinisch	ml-en

Repositories, die in INLTK verwendete Modelle enthalten

Sprache	Repository	Datensatz für die Sprachmodellierung	Verwirrung von Ulmfit LM (Beim Validierungssatz)	Verwirrung von Transformerxl LM (Beim Validierungssatz)	Datensatz zur Klassifizierung verwendet	Einstufung: TEST SET -Genauigkeit	Einstufung: Testset MCC	Klassifizierung: Notizbuch zur Reproduzierbarkeit	Ulmfit -Einbettungsvisualisierung	Transformerxl -Einbettungsvisualisierung
Hindi	NLP für Hindi	Hindi -Wikipedia -Artikel - 172k Hindi -Wikipedia -Artikel - 55k	34.06 35.87	26.09 34.78	BBC -Nachrichtenartikel IIT Patna Movie Reviews IIT Patna Produktbewertungen	78,75 57.74 75.71	0,71 0,37 0,59	Notizbuch Notizbuch Notizbuch	Hindi -Einbettungsprojektion	Hindi -Einbettungsprojektion
Bengali	NLP für Bengali	Bengalische Wikipedia -Artikel	41.2	39.3	Bengali Nachrichtenartikel (Soham -Artikel)	90.71	0,87	Notizbuch	Bengali Einbettungsprojektion	Bengali Einbettungsprojektion
Gujarati	NLP für Gujarati	Gujarati Wikipedia Artikel	34.12	28.12	Inltk Headlines Corpus - Gujarati	91.05	0,86	Notizbuch	Gujarati Einbettungsprojektion	Gujarati Einbettungsprojektion
Malayalam	NLP für Malayalam	Malayalam Wikipedia Artikel	26.39	25.79	Inltk Headlines Corpus - Malayalam	95,56	0,93	Notizbuch	Malayalam Einbettungsprojektion	Malayalam Einbettungsprojektion
Marathi	NLP für Marathi	Marathi Wikipedia -Artikel	18	17.42	Inltk Headlines Corpus - Marathi	92.40	0,85	Notizbuch	Marathi Einbettungsprojektion	Marathi Einbettungsprojektion
Tamil	NLP für Tamil	Tamilische Wikipedia -Artikel	19.80	17.22	Inltk Headlines Corpus - Tamil	95.22	0,92	Notizbuch	Tamilische Einbettungsprojektion	Tamilische Einbettungsprojektion
Punjabi	NLP für Punjabi	Punjabi Wikipedia -Artikel	24.40	14.03	Indicnlp News Article Classification Dataset - Punjabi	97.12	0,96	Notizbuch	Punjabi Einbettungsprojektion	Punjabi Einbettungsprojektion
Kannada	NLP für Kannada	Kannada Wikipedia -Artikel	70.10	61.97	Indicnlp News Article Classification Dataset - Kannada	98,87	0,98	Notizbuch	Kannada Einbettungsprojektion	Kannada Einbettungsprojektion
Oriya	NLP für Oriya	Oriya Wikipedia -Artikel	26.57	26.81	Indicnlp News Article Classification Dataset - Oriya	98.83	0,98	Notizbuch	Oriya Einbettungsprojektion	Oriya Einbettungsprojektion
Sanskrit	NLP für Sanskrit	Sanskrit Wikipedia -Artikel	~ 6	~ 3	Sanskrit Shlokas -Datensatz	84.3 (gültiger Satz)			Sanskrit -Einbettungsprojektion	Sanskrit -Einbettungsprojektion
Nepali	NLP für Nepali	Nepali Wikipedia Artikel	31.5	29.3	Nepali News -Datensatz	98.5 (gültiger Satz)			Nepali Einbettungsprojektion	Nepali Einbettungsprojektion
Urdu	NLP für Urdu	Urdu Wikipedia -Artikel	13.19	12.55	Urdu News -Datensatz	95.28 (gültiger Satz)			Urdu -Einbettungsprojektion	Urdu -Einbettungsprojektion
Telugu	NLP für Telugu	Telugu Wikipedia -Artikel	27.47	29.44	Telugu News -Datensatz Telugu News Andhra Jyoti	95.4 92.09		Notizbuch Notizbuch	Telugu Einbettungsprojektion	Telugu Einbettungsprojektion
Tangish	NLP für Tanglish	Synthetischer Tanglish -Datensatz	37,50	- -	Dravidian Codemix Haseoc @ Fire 2020 Dravidian Codemix Sentiment Analysis @ Fire 2020	F1 -Punktzahl: 0,88 F1 -Punktzahl: 0,62	- -	Notizbuch Notizbuch	Tanglish -Einbettungsprojektion	- -
Manglisch	NLP für Manglish	Synthetischer Manglish -Datensatz	45,84	- -	Dravidian Codemix Haseoc @ Fire 2020 Dravidian Codemix Sentiment Analysis @ Fire 2020	F1 -Punktzahl: 0,74 F1 -Punktzahl: 0,69	- -	Notizbuch Notizbuch	Manglish -Einbettungsprojektion	- -
Hinglish	NLP für Hinglish	Synthetischer Hinglish -Datensatz	86,48	- -	- -	- -	- -	- -	Hinglish -Einbettungsprojektion	- -

Hinweis: Das englische Modell wurde direkt von Fast.ai genommen.

Auswirkung der Verwendung von Transferlernen + Paraphrasen aus Inltk

Sprache	Repository	Datensatz zur Klassifizierung verwendet	Ergebnisse bei Verwendung Komplettes Trainingssatz	Prozentualer Abnahme In der Größe der Trainingseinsatzgröße	Ergebnisse bei Verwendung Reduziertes Trainingssatz ohne Paraphrasen	Ergebnisse bei Verwendung Reduziertes Trainingssatz mit Paraphrasen
Hindi	NLP für Hindi	IIT Patna Movie Reviews	Genauigkeit: 57,74 MCC: 37,23	80% (2480 -> 496)	Genauigkeit: 47,74 MCC: 20,50	Genauigkeit: 56.13 MCC: 34,39
Bengali	NLP für Bengali	Bengali Nachrichtenartikel (Soham -Artikel)	Genauigkeit: 90.71 MCC: 87,92	99% (11284 -> 112)	Genauigkeit: 69,88 MCC: 61,56	Genauigkeit: 74,06 MCC: 65,08
Gujarati	NLP für Gujarati	Inltk Headlines Corpus - Gujarati	Genauigkeit: 91.05 MCC: 86.09	90% (5269 -> 526)	Genauigkeit: 80.88 MCC: 70,18	Genauigkeit: 81.03 MCC: 70,44
Malayalam	NLP für Malayalam	Inltk Headlines Corpus - Malayalam	Genauigkeit: 95,56 MCC: 93,29	90% (5036 -> 503)	Genauigkeit: 82.38 MCC: 73,47	Genauigkeit: 84.29 MCC: 76,36
Marathi	NLP für Marathi	Inltk Headlines Corpus - Marathi	Genauigkeit: 92.40 MCC: 85,23	95% (9672 -> 483)	Genauigkeit: 84.13 MCC: 68,59	Genauigkeit: 84,55 MCC: 69.11
Tamil	NLP für Tamil	Inltk Headlines Corpus - Tamil	Genauigkeit: 95.22 MCC: 92.70	95% (5346 -> 267)	Genauigkeit: 86,25 MCC: 79,42	Genauigkeit: 89,84 MCC: 84,63

Weitere Informationen zur Implementierung oder zur Reproduktion der Ergebnisse finden Sie in den jeweiligen Repositorys.

Beitragen

Fügen Sie eine neue Sprachunterstützung hinzu

Wenn Sie inlTK Unterstützung für die Sprache Ihrer eigenen Wahl hinzufügen möchten, beginnen Sie hier mit der Überprüfung/Auferklärung eines Problems hier

Bitte überprüfen Sie die Schritte, die ich hier für Telugu erwähnt hatte. Sie sollten auch für andere Sprachen fast ähnlich sein.

Verbesserung von Modellen/Verwenden von Modellen für Ihre eigene Forschung

Wenn Sie die Modelle von INLTK aufnehmen und mit Ihrem eigenen Datensatz verfeinern oder Ihre eigenen benutzerdefinierten Modelle darüber erstellen möchten, lesen Sie bitte die Repositorys in der obigen Tabelle, um die Sprache Ihrer Wahl zu erhalten. Die obigen Repositorys enthalten Links zu Datensätzen, vorbereiteten Modellen, Klassifikatoren und allen Code dafür.

Neue Funktionalität hinzufügen

Wenn Sie eine bestimmte Funktionalität in INLTK wünschen - starten Sie hier ein Problem

Was kommt als nächstes

..und gearbeitet werden

Shout out if you want to help :)

Fügen Sie Maithili -Unterstützung hinzu

..und nicht gearbeitet werden

Shout out if you want to lead :)

Fügen Sie die NER -Unterstützung für alle Sprachen hinzu
Fügen Sie eine textliche Unterstützung für alle Sprachen hinzu
Arbeiten Sie an einem einheitlichen Modell für alle Sprachen
POS -Unterstützung in INLTK
Übersetzungen - zu und zu Sprachen in INLTK + Englisch hinzufügen

Inltks Wertschätzung

Von Jeremy Howard auf Twitter
Von Sebastian Ruder auf Twitter
Von Vincent Boucher, von Philip Vollet, von Steve Nouri auf LinkedIn
Von Kanimozhi, von Soham, von Imaad auf LinkedIn
INLTK war im Mai 2019 auf Github tendiert

Zitat

Wenn Sie diese Bibliothek in Ihren Forschungen verwenden, sollten Sie sich bitte angeben:

@inproceedings{arora-2020-inltk,
    title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
    author = "Arora, Gaurav" ,
    booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
    month = nov,
    year = "2020" ,
    address = "Online" ,
    publisher = "Association for Computational Linguistics" ,
    url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
    doi = "10.18653/v1/2020.nlposs-1.10" ,
    pages = "66--71" ,
    abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}

Expandieren

Zusätzliche Informationen

Version Code-Mixed Languages support
Typ Anderer Quellcode
Aktualisierungszeit 2025-04-19
Größe 695.07KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

inltk

Natürliches Sprach -Toolkit für Indic -Sprachen (INLTK)

Dokumentation

Unterstützte Sprachen

Muttersprachen

Code gemischte Sprachen

Repositories, die in INLTK verwendete Modelle enthalten

Auswirkung der Verwendung von Transferlernen + Paraphrasen aus Inltk

Beitragen

Fügen Sie eine neue Sprachunterstützung hinzu

Verbesserung von Modellen/Verwenden von Modellen für Ihre eigene Forschung

Neue Funktionalität hinzufügen

Was kommt als nächstes

..und gearbeitet werden

..und nicht gearbeitet werden

Inltks Wertschätzung

Zitat

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express