Indicbert ist die neue und verbesserte Implementierung von Bert, die Feinabstimmung mit Umarmung unterstützt. Alle Download -Links für INDICCORPV2, INDICXTREME und verschiedene Indicbertv2 -Modelle finden Sie hier.
Indic Bert ist ein mehrsprachiges Albert -Modell, das ausschließlich 12 große indische Sprachen abdeckt. Es ist auf unserem neuartigen Korpus von rund 9 Milliarden Token vorgebracht und an einer Reihe verschiedener Aufgaben bewertet. Indic-Bert hat rund 10x weniger Parameter als andere beliebte öffentlich verfügbare mehrsprachige Modelle, während es auch eine Leistung auf Par oder besser erzielt als diese Modelle.
Wir stellen auch Indicglue ein - eine Reihe von Standardbewertungsaufgaben, mit denen die NLU -Leistung einsprachiger und mehrsprachiger Modelle in indischen Sprachen gemessen werden können. Zusammen mit Indicglue erstellen wir auch eine Liste zusätzlicher Bewertungsaufgaben. Dieses Repository enthält Code zum Ausführen all dieser Bewertungsaufgaben auf Indic-Bert und anderen Bert-ähnlichen Modellen.
Das Indic -Bert -Modell basiert auf dem Albert -Modell, einem kürzlich durchgeführten Derivat von Bert. Es ist in 12 indischen Sprachen vorgebunden: Assamesisch, Bengali, Englisch, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil, Telugu.
Der einfachste Weg, Indic Bert zu verwenden, besteht in der Suggingface -Transformatoren -Bibliothek. Es kann einfach so geladen werden:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )HINWEIS: Um Akzente (Vokalmatras / Diacritics) während der Tokenisierung zu erhalten (Lesen Sie dieses Problem für weitere Details Nr. 26) verwenden Sie Folgendes:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )Der Code kann auf GPU, TPU oder auf der Colab -Plattform von Google ausgeführt werden. Wenn Sie es auf Colab ausführen möchten, können Sie einfach unser feinstimmendes Notebook verwenden. Beginnen Sie mit dem Ausführen der folgenden Befehle in Ihrem eigenen VM:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt Standardmäßig wird die Installation GPU verwendet. Aktualisieren Sie für die TPU -Unterstützung zuerst Ihre .bashrc mit den folgenden Variablen:
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib " Installieren Sie dann pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-devUm Hilfe zu bekommen, einfach rennen:
python3 -m fine_tune.cli --helpUm ein bestimmtes Modell mit Standard-Hyperparametern zu bewerten, finden Sie aus:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >Weitere weiteren Verwendung des Feinabstimmungscodes finden Sie in diesem Dokument.
Wir haben Indic-Bert auf AI4bharats einsprachigem Korpus vorgebracht. Der Korpus hat die folgende Verteilung der Sprachen:
| Sprache | als | bn | en | Gu | Hi | KN | |
|---|---|---|---|---|---|---|---|
| Anzahl der Token | 36,9 m | 815 m | 1.34b | 724 m | 1,84b | 712 m | |
| Sprache | ml | Herr | oder | pa | ta | te | alle |
| Anzahl der Token | 767 m | 560 m | 104 m | 814 m | 549 m | 671m | 8.9b |
Iglue ist ein natürliches Sprachverständnis -Benchmark für indische Sprachen, die wir vorschlagen. Während des Aufbaus dieses Benchmarks war es unser Ziel auch, die meisten der 11 indischen Sprachen für jede Aufgabe abzudecken. Es besteht aus den folgenden Aufgaben:
Vorhersage des Genres eines bestimmten Nachrichtenartikels. Der Datensatz enthält rund 125 -km -Nachrichtenartikel in 9 indischen Sprachen. Beispiel:
Artikel -Snippet :
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
Kategorie : Politik
Erkennen Sie Entitäten und ihre groben Typen in einer Abfolge von Wörtern. Der Datensatz enthält rund 787K -Beispiele in 11 indischen Sprachen.
Beispiel :
| Token | चाणक्य | पुपु | को | यहाँ | देखने | हेतु | यहाँ | क्लिक | कक |
| Typ | BLOCK | I-loc | O | O | O | O | O | O | O |
Prognostizieren Sie die richtige Überschrift für einen Nachrichtenartikel aus einer bestimmten Liste von vier Schlagzeilen von Kandidaten. Der Datensatz enthält rund 880K -Beispiele in 11 indischen Sprachen. Beispiel:
Nachrichtenartikel:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
Kandidat 1 : ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯ ಬರ್ಬರ ಹತ್ಯೆ [Richtige Antwort] Kandidat 2: ಮಾನಸಿಕ ಅಸ್ವಸ್ಥೆ ಮೇಲೆ ಕಳ್ಳಿ ಎಂದು ಭೀಕರ ಭೀಕರ ಹಲ್ಲೆ Kandidat 3: ಕಸಬ ಬೆಂಗ್ರೆಯಲ್ಲಿ ಮುಸುಕುಧಾರಿಗಳ ತಂಡದಿಂದ ಮೂವರು ಮೇಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಓರ್ವ ಓರ್ವ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಓರ್ವ ಓರ್ವ ಗಂಭೀರ ಗಂಭೀರ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ ಓರ್ವ
Prognostizieren Sie den richtigen Titel für einen Abschnitt Wikipedia aus einer bestimmten Liste von vier Kandidaten -Titeln. Der Datensatz hat 400.000 Beispiele in 11 indischen Sprachen.
Abschnitt Text :
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
Kandidat 1: એકસ-મેન
Kandidat 2: કારકીર્દિ
Kandidat 3: નિર્માણ કંપન [ Richtige Antwort ]
Kandidat 4: ઓસ્ટ્રેલિય
Bei einem Text mit einer zufällig maskierten Entität besteht die Aufgabe darin, diese maskierte Entität aus einer Liste von 4 Kandidateneinheiten vorherzusagen. Der Datensatz enthält rund 239 km Beispiele in 11 Sprachen. Beispiel:
Text
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।Kandidat 1 : ਬਰਤਾਨੀਆ [Richtige Antwort] Kandidat 2 : ਭਾਰਤ Kandidat 3 : ਸ਼ਿਕਾਗੋ Kandidat 4 : ਪਾਕਿਸਤਾਨ
Einen Satz in der Sprache gegeben
Eingabesatz
In the health sector the nation has now moved ahead from the conventional approach.
Abrufen Sie die folgende Übersetzung von einem Satz von 4886 Sätzen ab:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| Aufgabe | Mbert | Xlm-r | Indicbert |
|---|---|---|---|
| News -Artikel -Schlagzeilenvorhersage | 89,58 | 95,52 | 95,87 |
| Wikipedia -Abschnitts -Titelvorhersage | 73,66 | 66.33 | 73.31 |
| Multiple-Choice-QA im Cloze-Stil | 39.16 | 27.98 | 41.87 |
| Artikel Genre -Klassifizierung | 90.63 | 97.03 | 97.34 |
| Genannte Entitätserkennung (F1-Score) | 73,24 | 65,93 | 64.47 |
| Überbrückungsübergreifende Satzaufgabe | 21.46 | 13.74 | 27.12 |
| Durchschnitt | 64,62 | 61.09 | 66,66 |
| Aufgabe | Aufgabentyp | Mbert | Xlm-r | Indicbert |
|---|---|---|---|---|
| BBC -Nachrichtenklassifizierung | Genre -Klassifizierung | 60.55 | 75,52 | 74,60 |
| IIT -Produktbewertungen | Stimmungsanalyse | 74,57 | 78,97 | 71.32 |
| IITP -Filmkritiken | Sentiment Analaysis | 56,77 | 61.61 | 59.03 |
| Soham News Artikel | Genre -Klassifizierung | 80.23 | 87.6 | 78,45 |
| Midas -Diskurs | Diskursanalyse | 71.20 | 79,94 | 78,44 |
| INLTK -Schlagzeilen Klassifizierung | Genre -Klassifizierung | 87.95 | 93.38 | 94.52 |
| ACTSA SEIBIMENTSAKEITUNG | Stimmungsanalyse | 48.53 | 59.33 | 61.18 |
| Winograd nli | Inferenz der natürlichen Sprache | 56,34 | 55,87 | 56,34 |
| Auswahl der plausiblen Alternative (COPA) | Inferenz der natürlichen Sprache | 54,92 | 51.13 | 58.33 |
| Amrita genaues Paraphrase | Paraphrase -Erkennung | 93.81 | 93.02 | 93.75 |
| Amrita grobe Paraphrase | Paraphrase -Erkennung | 83.38 | 82.20 | 84.33 |
| Durchschnitt | 69,84 | 74,42 | 73,66 |
* Hinweis: Alle Modelle wurden auf eine max_seq_length von 128 beschränkt.
Das Modell kann hier heruntergeladen werden. Sowohl TF -Kontrollpunkte als auch Pytorch -Binärdateien sind im Archiv enthalten. Alternativ können Sie es auch von Suggingface herunterladen.
Wenn Sie eine der Ressourcen verwenden, geben Sie den folgenden Artikel an:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
Wir würden gerne von Ihnen hören, wenn:
Der Indicbert -Code (und Modelle) werden unter der MIT -Lizenz veröffentlicht.
Diese Arbeit ist das Ergebnis einer Freiwilligenarbeit im Rahmen der AI4bharat -Initiative.