تنزيل inltk - تنزيل رمز المصدر inltk

inltk

شفرة المصدر الأخرى

Code-Mixed Languages support

تنزيل

مجموعة أدوات اللغة الطبيعية للغات indic (inltk)

يهدف INLTK إلى توفير دعم من الصندوق لمختلف مهام NLP التي قد يحتاجها مطور التطبيق للغات المؤتمر. تم قبول ورقة مكتبة INLTK في ورشة NLP-OSS من EMNLP-2020. هذا هو الرابط إلى الورقة

الوثائق

الخروج من مستندات مفصلة جنبا إلى جنب مع تعليمات التثبيت على https://inltk.readthedocs.io

اللغات المدعومة

اللغات الأصلية

لغة	شفرة
الهندية	أهلاً
البنجابية	السلطة الفلسطينية
غوجاراتية	غو
الكانادا	كيلوغرام
الملايالام	مل
أوريا	أو
المهاراتية	السيد
البنغالية	مليار
التاميل	تا
الأردية	أور
النيبالي	NE
السنسكريتية	سا
إنجليزي	en
التيلجو	تي

رمز لغات مختلطة

لغة	السيناريو	شفرة
Hinglish (الهندية+الإنجليزية)	اللاتينية	مرحبا
Tanglish (التاميل+الإنجليزية)	اللاتينية	تا
Manglish (Malayalam+English)	اللاتينية	مل

المستودعات التي تحتوي على نماذج تستخدم في inltk

لغة	مستودع	مجموعة البيانات المستخدمة لنمذجة اللغة	حيرة Ulmfit LM (في مجموعة التحقق)	حيرة Transforerxl LM (في مجموعة التحقق)	مجموعة البيانات المستخدمة للتصنيف	تصنيف: اختبار مجموعة الدقة	تصنيف: مجموعة اختبار MCC	التصنيف: دفتر ملاحظات للاستنساخ	ulmfit التضمينات التصور	Transformerxl التضمينات التصور
الهندية	NLP للهندية	مقالات ويكيبيديا الهندية - 172K مقالات ويكيبيديا الهندية - 55 ألف	34.06 35.87	26.09 34.78	مقالات الأخبار بي بي سي مراجعات فيلم IIT Patna مراجعات منتج IIT Patna	78.75 57.74 75.71	0.71 0.37 0.59	دفتر دفتر دفتر	إسقاط التضمين الهندية	إسقاط التضمين الهندية
البنغالية	NLP للبنغالية	مقالات البنغالية ويكيبيديا	41.2	39.3	مقالات الأخبار البنغالية (مقالات سهام)	90.71	0.87	دفتر	التضمينات البنغالية	التضمينات البنغالية
غوجاراتية	NLP ل Gujarati	مقالات غوجاراتي ويكيبيديا	34.12	28.12	inltk عناوين الصحف كوربوس - غوجاراتي	91.05	0.86	دفتر	غوجاراتي التضمينات الإسقاط	غوجاراتي التضمينات الإسقاط
الملايالام	NLP للمالايالامية	مقالات Malayalam Wikipedia	26.39	25.79	عناوين inltk corpus - malayalam	95.56	0.93	دفتر	الإسقاط الملايالام	الإسقاط الملايالام
المهاراتية	NLP للماراثى	ماراثي ويكيبيديا المقالات	18	17.42	inltk عناوين الصحف كوربوس - الماراثى	92.40	0.85	دفتر	التضمينات المهاراتية	التضمينات المهاراتية
التاميل	NLP للتاميل	تاميل ويكيبيديا المقالات	19.80	17.22	عناوين inltk corpus - التاميل	95.22	0.92	دفتر	التاميل التضمين الإسقاط	التاميل التضمين الإسقاط
البنجابية	NLP للبنجابية	مقالات البنجابية ويكيبيديا	24.40	14.03	DataSet DataSitive Punjabi News Indist	97.12	0.96	دفتر	التضمينات البنجابية	التضمينات البنجابية
الكانادا	NLP للكانادا	مقالات الكانادا ويكيبيديا	70.10	61.97	Dataset DataStist internlp News - Kannada	98.87	0.98	دفتر	الكانادا تضمينات الإسقاط	الكانادا تضمينات الإسقاط
أوريا	NLP للأوريا	أوريا ويكيبيديا المقالات	26.57	26.81	مجموعة بيانات تصنيف مقال INVERNLP - ORIYA	98.83	0.98	دفتر	Oriya تضمينات الإسقاط	Oriya تضمينات الإسقاط
السنسكريتية	NLP للسنسكريتية	المقالات السنسكريتية ويكيبيديا	~ 6	~ 3	مجموعة بيانات Sanskrit Shlokas	84.3 (مجموعة صالحة)			إسقاط السنسكريتية	إسقاط السنسكريتية
النيبالي	NLP لنيبالي	مقالات ويكيبيديا النيبالية	31.5	29.3	مجموعة بيانات الأخبار النيبالية	98.5 (مجموعة صالحة)			إسقاط التضمين النيبالي	إسقاط التضمين النيبالي
الأردية	NLP للأردية	أردو ويكيبيديا المقالات	13.19	12.55	مجموعة بيانات الأخبار الأردية	95.28 (مجموعة صالحة)			التضمين الأردية الإسقاط	التضمين الأردية الإسقاط
التيلجو	NLP لتيلجو	تيلجو ويكيبيديا المقالات	27.47	29.44	مجموعة بيانات التيلجو الأخبار التيلجو نيوز أندرا جيوتي	95.4 92.09		دفتر دفتر	التشرد التيلجو إسقاط	التشرد التيلجو إسقاط
طنانة	NLP لتانغليش	مجموعة بيانات التانغليش الاصطناعية	37.50	-	Dravidian CodeMix Hasoc @ Fire 2020 Dravidian CodeMix Assection Analysis @ Fire 2020	درجة F1: 0.88 درجة F1: 0.62	-	دفتر دفتر	إسقاط التضمين التانغلي	-
Manglish	NLP لـ Manglish	مجموعة بيانات manglish الاصطناعية	45.84	-	Dravidian CodeMix Hasoc @ Fire 2020 Dravidian CodeMix Assection Analysis @ Fire 2020	درجة F1: 0.74 درجة F1: 0.69	-	دفتر دفتر	الإسقاط التضمينات مانجش	-
Hinglish	NLP ل Hinglish	مجموعة بيانات Hinglish الاصطناعية	86.48	-	-	-	-	-	إسقاط التضمينات Hinglish	-

ملاحظة: تم أخذ نموذج اللغة الإنجليزية مباشرة من Fast.ai

تأثير استخدام التعلم النقل + إعادة صياغة من INLTK

لغة	مستودع	مجموعة البيانات المستخدمة للتصنيف	النتائج على استخدام مجموعة تدريب كاملة	انخفاض النسبة المئوية في حجم مجموعة التدريب	النتائج على استخدام مجموعة التدريب مخفضة بدون إعادة صياغة	النتائج على استخدام مجموعة التدريب مخفضة مع إعادة صياغة
الهندية	NLP للهندية	مراجعات فيلم IIT Patna	الدقة: 57.74 MCC: 37.23	80 ٪ (2480 -> 496)	الدقة: 47.74 MCC: 20.50	الدقة: 56.13 MCC: 34.39
البنغالية	NLP للبنغالية	مقالات الأخبار البنغالية (مقالات سهام)	الدقة: 90.71 MCC: 87.92	99 ٪ (11284 -> 112)	الدقة: 69.88 MCC: 61.56	الدقة: 74.06 MCC: 65.08
غوجاراتية	NLP ل Gujarati	inltk عناوين الصحف كوربوس - غوجاراتي	الدقة: 91.05 MCC: 86.09	90 ٪ (5269 -> 526)	الدقة: 80.88 MCC: 70.18	الدقة: 81.03 MCC: 70.44
الملايالام	NLP للمالايالامية	عناوين inltk corpus - malayalam	الدقة: 95.56 MCC: 93.29	90 ٪ (5036 -> 503)	الدقة: 82.38 MCC: 73.47	الدقة: 84.29 MCC: 76.36
المهاراتية	NLP للماراثى	inltk عناوين الصحف كوربوس - الماراثى	الدقة: 92.40 MCC: 85.23	95 ٪ (9672 -> 483)	الدقة: 84.13 MCC: 68.59	الدقة: 84.55 MCC: 69.11
التاميل	NLP للتاميل	عناوين inltk corpus - التاميل	الدقة: 95.22 MCC: 92.70	95 ٪ (5346 -> 267)	الدقة: 86.25 MCC: 79.42	الدقة: 89.84 MCC: 84.63

لمزيد من التفاصيل حول التنفيذ أو لإعادة إنتاج النتائج ، الخروج من المستودعات المعنية.

المساهمة

أضف دعم لغة جديد

إذا كنت ترغب في إضافة دعم للغة من اختيارك إلى INLTK ، فيرجى البدء في التحقق/إثارة مشكلة هنا

يرجى الخروج من الخطوات التي ذكرتها هنا لبطولة التيلجو. يجب أن تكون متشابهة تقريبا لللغات الأخرى كذلك.

تحسين النماذج/استخدام نماذج لبحثك الخاص

إذا كنت ترغب في تناول نماذج Inltk وصقلها باستخدام مجموعة البيانات الخاصة بك أو إنشاء النماذج المخصصة الخاصة بك فوقها ، فيرجى التحقق من المستودعات في الجدول أعلاه للغة التي تختارها. تحتوي المستودعات أعلاه على روابط لمجموعات البيانات والنماذج المسبقة والمصنفات وجميع التعليمات البرمجية لذلك.

أضف وظائف جديدة

إذا كنت ترغب في الحصول على وظيفة معينة في INLTK - ابدأ عن طريق التحقق/إثارة مشكلة هنا

ماذا بعد

.. وعمل عليها

Shout out if you want to help :)

أضف دعم maithili

.. وليس العمل عليه

Shout out if you want to lead :)

أضف دعم NER لجميع اللغات
أضف دعمًا للاستمرار النصية لجميع اللغات
العمل على نموذج موحد لجميع اللغات
POS دعم في INLTK
إضافة ترجمات - من وإلى اللغات في inltk + الإنجليزية

inltk تقدير

بقلم جيريمي هوارد على تويتر
بقلم سيباستيان رودر على تويتر
بقلم فنسنت باوتشر ، بقلم فيليب فوليت ، بقلم ستيف نوري على لينكدين
بقلم كانموزي ، بقلم سهام ، من قبل Imaad على LinkedIn
كان Inltk يتجه إلى Github في مايو 2019

اقتباس

إذا كنت تستخدم هذه المكتبة في بحثك ، فيرجى التفكير في:

@inproceedings{arora-2020-inltk,
    title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
    author = "Arora, Gaurav" ,
    booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
    month = nov,
    year = "2020" ,
    address = "Online" ,
    publisher = "Association for Computational Linguistics" ,
    url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
    doi = "10.18653/v1/2020.nlposs-1.10" ,
    pages = "66--71" ,
    abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}

يوسع

معلومات إضافية

الإصدار Code-Mixed Languages support
النوع شفرة المصدر الأخرى
وقت التحديث 2025-04-19
الحجم 695.07KB
من Github

تطبيقات ذات صلة

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل