إنديبرت هو التنفيذ الجديد والمحسّن لـ Bert الذي يدعم الضبط مع Huggingface. تتوفر هنا جميع روابط التنزيل لـ Inclcorpv2 و INDCXTREME ونماذج indicbertv2 المختلفة هنا.
Indic Bert هو نموذج Albert متعدد اللغات يغطي حصريًا 12 لغة هندية رئيسية. يتم تدريبه مسبقًا على مجموعة روايتنا التي تبلغ حوالي 9 مليارات رمز وتقييمها على مجموعة من المهام المتنوعة. لدى Intern-Bert حوالي 10 أضعاف معلمات أقل من النماذج المتعددة اللغات الشائعة المتوفرة للجمهور ، بينما يحقق أيضًا أداءً على المستوى أو أفضل من هذه النماذج.
نقدم أيضًا ProvGlue - مجموعة من مهام التقييم القياسية التي يمكن استخدامها لقياس أداء NLU للنماذج أحادية اللغة ومتعددة اللغات على اللغات الهندية. جنبا إلى جنب مع Provglue ، نقوم أيضا تجميع قائمة بمهام التقييم الإضافية. يحتوي هذا المستودع على رمز لتشغيل جميع مهام التقييم هذه على indic-bert ونماذج أخرى تشبه Bert.
يعتمد نموذج BERT indic على نموذج Albert ، وهو مشتق حديث لـ BERT. تم تدريبه مسبقًا على 12 لغة هندية: الأساميس ، البنغالية ، الإنجليزية ، غوجاراتية ، هندي ، الكانادا ، المالايالام ، الماراثى ، الأوريا ، البنجابية ، تاميل ، التيلجو.
أسهل طريقة لاستخدام indic Bert هي من خلال مكتبة Transformers Huggingface. يمكن تحميله ببساطة مثل هذا:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )ملاحظة: للحفاظ على لهجات (عوامل حرف علة / علبات) أثناء الرمز المميز (اقرأ هذه المشكلة لمزيد من التفاصيل رقم 26) ، استخدم هذا:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )يمكن تشغيل الكود على GPU أو TPU أو على منصة كولاب من Google. إذا كنت ترغب في تشغيله على كولاب ، فيمكنك ببساطة استخدام دفترنا الصحيح. لتشغيله في VM الخاص بك ، ابدأ بتشغيل الأوامر التالية:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt بشكل افتراضي ، سيستخدم التثبيت GPU. لدعم TPU ، قم أولاً بتحديث .bashrc مع المتغيرات التالية:
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib " ثم ، قم بتثبيت pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-devللحصول على المساعدة ، ببساطة تشغيل:
python3 -m fine_tune.cli --helpلتقييم نموذج محدد مع أجهزة برامينية افتراضية ، تنفيذ:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >للحصول على مزيد من الاستخدام المتقدم لرمز الضبط ، راجع هذا المستند.
لقد قمنا بتدريبات indic-bert مسبقًا على مجموعة Ai4bharat أحادية اللغة. لدى Corpus التوزيع التالي للغات:
| لغة | مثل | مليار | en | غو | أهلاً | كيلوغرام | |
|---|---|---|---|---|---|---|---|
| عدد الرموز | 36.9m | 815 م | 1.34 ب | 724 م | 1.84 ب | 712m | |
| لغة | مل | السيد | أو | السلطة الفلسطينية | تا | تي | الجميع |
| عدد الرموز | 767m | 560 م | 104m | 814m | 549m | 671 م | 8.9b |
Iglue هو معيار لفهم اللغة الطبيعية للغات الهندية التي نقترحها. أثناء بناء هذا المعيار ، كان هدفنا أيضًا تغطية معظم اللغات الهندية الـ 11 لكل مهمة. يتكون من المهام التالية:
توقع هذا النوع من مقالة إخبارية معينة. تحتوي مجموعة البيانات على حوالي 125 كيلو مقالات إخبارية عبر 9 لغات هندية. مثال:
مقتطف المقال :
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
الفئة : السياسة
التعرف على الكيانات وأنواعها الخشنة في سلسلة من الكلمات. تحتوي مجموعة البيانات على حوالي 787 ألف أمثلة عبر 11 لغة هندية.
مثال :
| رمز | च | पु | को | यह | देखने | हेतु | यह | क | क |
| يكتب | كتلة | أنا لوك | س | س | س | س | س | س | س |
توقع العنوان الصحيح لمقال إخباري من قائمة معينة من أربعة عناوين المرشحين. تحتوي مجموعة البيانات على حوالي 880 ألف أمثلة عبر 11 لغة هندية. مثال:
مقال إخباري:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
المرشح 1 : ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯ ಟೆಕ್ಕಿಯ ಹತ್ಯೆ [الإجابة الصحيحة] المرشح 2 : ಮಾನಸಿಕ ಅಸ್ವಸ್ಥೆ ಅಸ್ವಸ್ಥೆ ಮಕ್ಕಳ ಕಳ್ಳಿ ಭೀಕರ ಭೀಕರ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ
توقع العنوان الصحيح لقسم ويكيبيديا من قائمة معينة من أربعة ألقاب مرشحين. تحتوي مجموعة البيانات على 400 ألف أمثلة عبر 11 لغة هندية.
نص القسم :
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
المرشح 1: એકસ-મેન
المرشح 2: કારકીર્દિ
المرشح 3: નિર્માણ કંપન [ الإجابة الصحيحة ]
المرشح 4: ઓસ્ટ્રેલિય
بالنظر إلى نص يحتوي على كيان ملثمين بشكل عشوائي ، فإن المهمة هي التنبؤ بأن الكيان المقنع من قائمة من 4 كيانات مرشحين. تحتوي مجموعة البيانات على حوالي 239 كيلو أمثلة عبر 11 لغة. مثال:
نص
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।المرشح 1 : ਬਰਤਾਨੀਆ [الإجابة الصحيحة] المرشح 2 : ਭਾਰਤ المرشح 3 : ਸ਼ਿਕਾਗੋ المرشح 4 : ਪਾਕਿਸਤਾਨ
إعطاء جملة في اللغة
جملة المدخلات
In the health sector the nation has now moved ahead from the conventional approach.
استرجاع الترجمة التالية من مجموعة من 4886 جمل:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| مهمة | Mbert | XLM-R | إندوبرت |
|---|---|---|---|
| تنبؤ المقالة الإخبارية | 89.58 | 95.52 | 95.87 |
| التنبؤ بنقص قسم ويكيبيديا | 73.66 | 66.33 | 73.31 |
| طراز Cloze متعدد الخيارات QA | 39.16 | 27.98 | 41.87 |
| تصنيف نوع المادة | 90.63 | 97.03 | 97.34 |
| التعرف على الكيان المسماة (F1-Score) | 73.24 | 65.93 | 64.47 |
| مهمة استرجاع الجملة المتقاطعة | 21.46 | 13.74 | 27.12 |
| متوسط | 64.62 | 61.09 | 66.66 |
| مهمة | نوع المهمة | Mbert | XLM-R | إندوبرت |
|---|---|---|---|---|
| تصنيف الأخبار بي بي سي | تصنيف النوع | 60.55 | 75.52 | 74.60 |
| مراجعات المنتج IIT | تحليل المشاعر | 74.57 | 78.97 | 71.32 |
| مراجعات فيلم IITP | المشاعر analaysis | 56.77 | 61.61 | 59.03 |
| مقال أخبار سهام | تصنيف النوع | 80.23 | 87.6 | 78.45 |
| خطاب ميداس | تحليل الخطاب | 71.20 | 79.94 | 78.44 |
| INLTK عناوين العناوين | تصنيف النوع | 87.95 | 93.38 | 94.52 |
| تحليل المشاعر Actsa | تحليل المشاعر | 48.53 | 59.33 | 61.18 |
| Winograd NLI | استنتاج اللغة الطبيعية | 56.34 | 55.87 | 56.34 |
| اختيار البديل المعقول (COPA) | استنتاج اللغة الطبيعية | 54.92 | 51.13 | 58.33 |
| أمريتا إعادة صياغة دقة | اكتشاف إعادة صياغة | 93.81 | 93.02 | 93.75 |
| amrita إعادة صياغة | اكتشاف إعادة صياغة | 83.38 | 82.20 | 84.33 |
| متوسط | 69.84 | 74.42 | 73.66 |
* ملاحظة: تم تقييد جميع النماذج على max_seq_length 128.
يمكن تنزيل النموذج هنا. يتم تضمين كل من نقاط التفتيش TF وثنائيات Pytorch في الأرشيف. بدلاً من ذلك ، يمكنك أيضًا تنزيله من Huggingface.
إذا كنت تستخدم أي من الموارد ، فيرجى الاستشهاد بالمقالة التالية:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
نود أن نسمع منك إذا:
يتم إصدار رمز Indicbert (والموديلات) ضمن رخصة معهد ماساتشوستس للتكنولوجيا.
هذا العمل هو نتيجة جهود التطوع كجزء من مبادرة AI4Bharat.