Indicbert est la nouvelle et améliorée la mise en œuvre de Bert supportant du réglage fin avec HuggingFace. Tous les liens de téléchargement pour indiccorpv2, indicxtreme et divers modèles Indicbertv2 sont disponibles ici.
Indic Bert est un modèle Albert multilingue qui couvre exclusivement 12 grandes langues indiennes. Il est pré-formé sur notre nouveau corpus d'environ 9 milliards de jetons et évalué sur un ensemble de tâches diverses. Indic-BERT a environ 10x de paramètres de moins que les autres modèles multilingues disponibles au public tandis qu'il réalise également une performance sur-parle ou mieux que ces modèles.
Nous introduisons également Indicglue - un ensemble de tâches d'évaluation standard qui peuvent être utilisées pour mesurer les performances NLU des modèles monolingues et multilingues sur les langues indiennes. En plus d'indiquer, nous compilons également une liste de tâches d'évaluation supplémentaires. Ce référentiel contient du code pour l'exécution de toutes ces tâches d'évaluation sur Indic-BERT et d'autres modèles de type Bert.
Le modèle Indic Bert est basé sur le modèle Albert, une dérivée récente de Bert. Il est pré-entraîné sur 12 langues indiennes: assamais, bengali, anglais, gujarati, hindi, kannada, malayalam, marathi, oriya, punjabi, tamoul, telugu.
La façon la plus simple d'utiliser Indic Bert est via la bibliothèque de transformateurs HuggingFace. Il peut être simplement chargé comme ceci:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )Remarque: Pour préserver les accents (voyelle matras / diacritics) pendant la tokenisation (lisez ce numéro pour plus de détails # 26), utilisez ceci:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )Le code peut être exécuté sur GPU, TPU ou sur la plate-forme Colab de Google. Si vous souhaitez l'exécuter sur Colab, vous pouvez simplement utiliser notre cahier de réglage fin. Pour l'exécuter dans votre propre machine virtuelle, commencez par exécuter les commandes suivantes:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt Par défaut, l'installation utilisera GPU. Pour le support TPU, mettez d'abord à mettre à jour votre .bashrc avec les variables suivantes:
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib " Ensuite, installez pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-devPour obtenir de l'aide, exécutez simplement:
python3 -m fine_tune.cli --helpPour évaluer un modèle spécifique avec des hyper-paramètres par défaut, exécutez:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >Pour une utilisation plus avancée du code de réglage fin, reportez-vous à ce document.
Nous avons pré-formé Indic-Bert sur le corpus monolingue d'Ai4bharat. Le corpus a la distribution suivante des langues:
| Langue | comme | BN | en | GU | Salut | KN | |
|---|---|---|---|---|---|---|---|
| Nombre de jetons | 36,9 m | 815m | 1.34b | 724m | 1.84b | 712m | |
| Langue | ml | M. | ou | Pennsylvanie | faire | te | tous |
| Nombre de jetons | 767m | 560m | 104m | 814m | 549m | 671m | 8.9b |
Iglue est une référence de compréhension du langage naturel pour les langues indiennes que nous proposons. Lors de la construction de cette référence, notre objectif était également de couvrir la plupart des 11 langues indiennes pour chaque tâche. Il se compose des tâches suivantes:
Prédire le genre d'un article de presse donné. L'ensemble de données contient environ 125 000 articles d'information dans 9 langues indiennes. Exemple:
Extrait d'article :
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
Catégorie : politique
Reconnaissez les entités et leurs types grossiers dans une séquence de mots. L'ensemble de données contient environ 787K exemples dans 11 langues indiennes.
Exemple :
| Jeton | चाणक्य | पुरी | को | यहाँ | देखने | हेतु | यहाँ | क्लिक | करें |
| Taper | BLOC | I-loc | O | O | O | O | O | O | O |
Prédisez le titre correct d'un article de presse d'une liste donnée de quatre titres des candidats. L'ensemble de données contient environ 880K exemples dans 11 langues indiennes. Exemple:
Article de presse:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
Candidat 1 : ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯ ಬರ್ಬರ ಹತ್ಯೆ [Réponse correcte] candidat 2: ಮಾನಸಿಕ ಅಸ್ವಸ್ಥೆ ಮೇಲೆ ಮಕ್ಕಳ ಕಳ್ಳಿ ಎಂದು ಭೀಕರ ಭೀಕರ ಹಲ್ಲೆ candidat 3: ಕಸಬ ಬೆಂಗ್ರೆಯಲ್ಲಿ ಮುಸುಕುಧಾರಿಗಳ ತಂಡದಿಂದ ಮೂವರು ಯುವಕರ ಮೇಲೆ ಹಲ್ಲೆ: ಓರ್ವ ಗಂಭೀರ candidat 4: ಕಣಿವೆ ರಾಜ್ಯದಲ್ಲಿ mobile ಬಂದ್, ಪ್ರಿಂಟಿಂಗ್ ಪ್ರೆಸ್ ಮೇಲೆ ದಾಳಿ ದಾಳಿ
Prédisez le titre correct pour une section Wikipedia à partir d'une liste donnée de quatre titres candidats. L'ensemble de données a 400 000 exemples dans 11 langues indiennes.
Texte de section :
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
Candidat 1: એકસ-મેન
Candidat 2: કારકીર્દિ
Candidat 3: નિર્માણ કંપન કંપન કંપન કંપન કંપન કંપન કંપન [ Réponse correcte ]
Candidat 4: ઓસ્ટ્રેલિય
Étant donné un texte avec une entité masquée au hasard, la tâche consiste à prédire que l'entité masquée à partir d'une liste de 4 entités candidates. L'ensemble de données contient environ 239k exemples sur 11 langues. Exemple:
Texte
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।Candidat 1 : ਬਰਤਾਨੀਆ [Réponse correcte] candidat 2 : ਭਾਰਤ candidat 3 : ਸ਼ਿਕਾਗੋ candidat 4 : ਪਾਕਿਸਤਾਨ
Étant donné une phrase dans la langue
Phrase d'entrée
In the health sector the nation has now moved ahead from the conventional approach.
Récupérez la traduction suivante à partir d'un ensemble de 4886 phrases:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| Tâche | Mbert | Xlm-r | Indicbert |
|---|---|---|---|
| Prediction de l'article de presse | 89,58 | 95,52 | 95.87 |
| Prédiction du titre de la section Wikipedia | 73.66 | 66.33 | 73.31 |
| QA à choix multiple de style Cloze | 39.16 | 27.98 | 41.87 |
| Classification des genres d'article | 90,63 | 97.03 | 97.34 |
| Reconnaissance de l'entité nommée (F1-score) | 73.24 | 65.93 | 64.47 |
| Tâche de récupération de phrases inter-gênante | 21.46 | 13.74 | 27.12 |
| Moyenne | 64.62 | 61.09 | 66.66 |
| Tâche | Type de tâche | Mbert | Xlm-r | Indicbert |
|---|---|---|---|---|
| Classification des nouvelles de la BBC | Classification des genres | 60,55 | 75.52 | 74.60 |
| Avis sur les produits IIT | Analyse des sentiments | 74.57 | 78,97 | 71.32 |
| Critiques de films IITP | Sentiment Analaysis | 56.77 | 61.61 | 59.03 |
| Article de Soham News | Classification des genres | 80.23 | 87.6 | 78,45 |
| Discours Midas | Analyse du discours | 71.20 | 79.94 | 78.44 |
| Classification des titres INLTK | Classification des genres | 87,95 | 93.38 | 94.52 |
| Analyse des sentiments ACTSA | Analyse des sentiments | 48,53 | 59.33 | 61.18 |
| Winograd nli | Inférence du langage naturel | 56.34 | 55,87 | 56.34 |
| Choix d'alternative plausible (COPA) | Inférence du langage naturel | 54.92 | 51.13 | 58,33 |
| Paraphrase exacte d'Amrita | Détection de paraphrase | 93.81 | 93.02 | 93.75 |
| Amrita Rough Paraphrase | Détection de paraphrase | 83.38 | 82.20 | 84.33 |
| Moyenne | 69.84 | 74.42 | 73.66 |
* Remarque: Tous les modèles ont été limités à un max_seq_length de 128.
Le modèle peut être téléchargé ici. Les points de contrôle TF et les binaires Pytorch sont inclus dans les archives. Alternativement, vous pouvez également le télécharger depuis HuggingFace.
Si vous utilisez l'une des ressources, veuillez citer l'article suivant:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
Nous aimerions avoir de vos nouvelles si:
Le code INDICBERT (et les modèles) sont publiés sous la licence MIT.
Ce travail est le résultat d'un effort de bénévolat dans le cadre de l'initiative AI4Bharat.