يهدف INLTK إلى توفير دعم من الصندوق لمختلف مهام NLP التي قد يحتاجها مطور التطبيق للغات المؤتمر. تم قبول ورقة مكتبة INLTK في ورشة NLP-OSS من EMNLP-2020. هذا هو الرابط إلى الورقة
الخروج من مستندات مفصلة جنبا إلى جنب مع تعليمات التثبيت على https://inltk.readthedocs.io
| لغة | شفرة |
|---|---|
| الهندية | أهلاً |
| البنجابية | السلطة الفلسطينية |
| غوجاراتية | غو |
| الكانادا | كيلوغرام |
| الملايالام | مل |
| أوريا | أو |
| المهاراتية | السيد |
| البنغالية | مليار |
| التاميل | تا |
| الأردية | أور |
| النيبالي | NE |
| السنسكريتية | سا |
| إنجليزي | en |
| التيلجو | تي |
| لغة | السيناريو | شفرة |
|---|---|---|
| Hinglish (الهندية+الإنجليزية) | اللاتينية | مرحبا |
| Tanglish (التاميل+الإنجليزية) | اللاتينية | تا |
| Manglish (Malayalam+English) | اللاتينية | مل |
| لغة | مستودع | مجموعة البيانات المستخدمة لنمذجة اللغة | حيرة Ulmfit LM (في مجموعة التحقق) | حيرة Transforerxl LM (في مجموعة التحقق) | مجموعة البيانات المستخدمة للتصنيف | تصنيف: اختبار مجموعة الدقة | تصنيف: مجموعة اختبار MCC | التصنيف: دفتر ملاحظات للاستنساخ | ulmfit التضمينات التصور | Transformerxl التضمينات التصور |
|---|---|---|---|---|---|---|---|---|---|---|
| الهندية | NLP للهندية | مقالات ويكيبيديا الهندية - 172K مقالات ويكيبيديا الهندية - 55 ألف | 34.06 35.87 | 26.09 34.78 | مقالات الأخبار بي بي سي مراجعات فيلم IIT Patna مراجعات منتج IIT Patna | 78.75 57.74 75.71 | 0.71 0.37 0.59 | دفتر دفتر دفتر | إسقاط التضمين الهندية | إسقاط التضمين الهندية |
| البنغالية | NLP للبنغالية | مقالات البنغالية ويكيبيديا | 41.2 | 39.3 | مقالات الأخبار البنغالية (مقالات سهام) | 90.71 | 0.87 | دفتر | التضمينات البنغالية | التضمينات البنغالية |
| غوجاراتية | NLP ل Gujarati | مقالات غوجاراتي ويكيبيديا | 34.12 | 28.12 | inltk عناوين الصحف كوربوس - غوجاراتي | 91.05 | 0.86 | دفتر | غوجاراتي التضمينات الإسقاط | غوجاراتي التضمينات الإسقاط |
| الملايالام | NLP للمالايالامية | مقالات Malayalam Wikipedia | 26.39 | 25.79 | عناوين inltk corpus - malayalam | 95.56 | 0.93 | دفتر | الإسقاط الملايالام | الإسقاط الملايالام |
| المهاراتية | NLP للماراثى | ماراثي ويكيبيديا المقالات | 18 | 17.42 | inltk عناوين الصحف كوربوس - الماراثى | 92.40 | 0.85 | دفتر | التضمينات المهاراتية | التضمينات المهاراتية |
| التاميل | NLP للتاميل | تاميل ويكيبيديا المقالات | 19.80 | 17.22 | عناوين inltk corpus - التاميل | 95.22 | 0.92 | دفتر | التاميل التضمين الإسقاط | التاميل التضمين الإسقاط |
| البنجابية | NLP للبنجابية | مقالات البنجابية ويكيبيديا | 24.40 | 14.03 | DataSet DataSitive Punjabi News Indist | 97.12 | 0.96 | دفتر | التضمينات البنجابية | التضمينات البنجابية |
| الكانادا | NLP للكانادا | مقالات الكانادا ويكيبيديا | 70.10 | 61.97 | Dataset DataStist internlp News - Kannada | 98.87 | 0.98 | دفتر | الكانادا تضمينات الإسقاط | الكانادا تضمينات الإسقاط |
| أوريا | NLP للأوريا | أوريا ويكيبيديا المقالات | 26.57 | 26.81 | مجموعة بيانات تصنيف مقال INVERNLP - ORIYA | 98.83 | 0.98 | دفتر | Oriya تضمينات الإسقاط | Oriya تضمينات الإسقاط |
| السنسكريتية | NLP للسنسكريتية | المقالات السنسكريتية ويكيبيديا | ~ 6 | ~ 3 | مجموعة بيانات Sanskrit Shlokas | 84.3 (مجموعة صالحة) | إسقاط السنسكريتية | إسقاط السنسكريتية | ||
| النيبالي | NLP لنيبالي | مقالات ويكيبيديا النيبالية | 31.5 | 29.3 | مجموعة بيانات الأخبار النيبالية | 98.5 (مجموعة صالحة) | إسقاط التضمين النيبالي | إسقاط التضمين النيبالي | ||
| الأردية | NLP للأردية | أردو ويكيبيديا المقالات | 13.19 | 12.55 | مجموعة بيانات الأخبار الأردية | 95.28 (مجموعة صالحة) | التضمين الأردية الإسقاط | التضمين الأردية الإسقاط | ||
| التيلجو | NLP لتيلجو | تيلجو ويكيبيديا المقالات | 27.47 | 29.44 | مجموعة بيانات التيلجو الأخبار التيلجو نيوز أندرا جيوتي | 95.4 92.09 | دفتر دفتر | التشرد التيلجو إسقاط | التشرد التيلجو إسقاط | |
| طنانة | NLP لتانغليش | مجموعة بيانات التانغليش الاصطناعية | 37.50 | - | Dravidian CodeMix Hasoc @ Fire 2020 Dravidian CodeMix Assection Analysis @ Fire 2020 | درجة F1: 0.88 درجة F1: 0.62 | - | دفتر دفتر | إسقاط التضمين التانغلي | - |
| Manglish | NLP لـ Manglish | مجموعة بيانات manglish الاصطناعية | 45.84 | - | Dravidian CodeMix Hasoc @ Fire 2020 Dravidian CodeMix Assection Analysis @ Fire 2020 | درجة F1: 0.74 درجة F1: 0.69 | - | دفتر دفتر | الإسقاط التضمينات مانجش | - |
| Hinglish | NLP ل Hinglish | مجموعة بيانات Hinglish الاصطناعية | 86.48 | - | - | - | - | - | إسقاط التضمينات Hinglish | - |
ملاحظة: تم أخذ نموذج اللغة الإنجليزية مباشرة من Fast.ai
| لغة | مستودع | مجموعة البيانات المستخدمة للتصنيف | النتائج على استخدام مجموعة تدريب كاملة | انخفاض النسبة المئوية في حجم مجموعة التدريب | النتائج على استخدام مجموعة التدريب مخفضة بدون إعادة صياغة | النتائج على استخدام مجموعة التدريب مخفضة مع إعادة صياغة |
|---|---|---|---|---|---|---|
| الهندية | NLP للهندية | مراجعات فيلم IIT Patna | الدقة: 57.74 MCC: 37.23 | 80 ٪ (2480 -> 496) | الدقة: 47.74 MCC: 20.50 | الدقة: 56.13 MCC: 34.39 |
| البنغالية | NLP للبنغالية | مقالات الأخبار البنغالية (مقالات سهام) | الدقة: 90.71 MCC: 87.92 | 99 ٪ (11284 -> 112) | الدقة: 69.88 MCC: 61.56 | الدقة: 74.06 MCC: 65.08 |
| غوجاراتية | NLP ل Gujarati | inltk عناوين الصحف كوربوس - غوجاراتي | الدقة: 91.05 MCC: 86.09 | 90 ٪ (5269 -> 526) | الدقة: 80.88 MCC: 70.18 | الدقة: 81.03 MCC: 70.44 |
| الملايالام | NLP للمالايالامية | عناوين inltk corpus - malayalam | الدقة: 95.56 MCC: 93.29 | 90 ٪ (5036 -> 503) | الدقة: 82.38 MCC: 73.47 | الدقة: 84.29 MCC: 76.36 |
| المهاراتية | NLP للماراثى | inltk عناوين الصحف كوربوس - الماراثى | الدقة: 92.40 MCC: 85.23 | 95 ٪ (9672 -> 483) | الدقة: 84.13 MCC: 68.59 | الدقة: 84.55 MCC: 69.11 |
| التاميل | NLP للتاميل | عناوين inltk corpus - التاميل | الدقة: 95.22 MCC: 92.70 | 95 ٪ (5346 -> 267) | الدقة: 86.25 MCC: 79.42 | الدقة: 89.84 MCC: 84.63 |
لمزيد من التفاصيل حول التنفيذ أو لإعادة إنتاج النتائج ، الخروج من المستودعات المعنية.
إذا كنت ترغب في إضافة دعم للغة من اختيارك إلى INLTK ، فيرجى البدء في التحقق/إثارة مشكلة هنا
يرجى الخروج من الخطوات التي ذكرتها هنا لبطولة التيلجو. يجب أن تكون متشابهة تقريبا لللغات الأخرى كذلك.
إذا كنت ترغب في تناول نماذج Inltk وصقلها باستخدام مجموعة البيانات الخاصة بك أو إنشاء النماذج المخصصة الخاصة بك فوقها ، فيرجى التحقق من المستودعات في الجدول أعلاه للغة التي تختارها. تحتوي المستودعات أعلاه على روابط لمجموعات البيانات والنماذج المسبقة والمصنفات وجميع التعليمات البرمجية لذلك.
إذا كنت ترغب في الحصول على وظيفة معينة في INLTK - ابدأ عن طريق التحقق/إثارة مشكلة هنا
Shout out if you want to help :)
Shout out if you want to lead :)
إذا كنت تستخدم هذه المكتبة في بحثك ، فيرجى التفكير في:
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}