Andiabert是用HuggingFace進行微調的新的和改進的Bert支持的實施。 IndiNCORPV2,IndiNxTreme和各種IndienBertV2模型的所有下載鏈接都可以在此處提供。
AIND AIND BERT是一種多語言的Albert模型,僅涵蓋12種主要的印度語言。它已在我們的大約90億個代幣的新型語料庫中進行了預訓練,並對一系列不同的任務進行了評估。與其他流行的公開多語言模型相比,Indic-Bert的參數要少約10倍,而它也比這些模型獲得了PAR或更好的性能。
我們還介紹了Indicglue-一組標準評估任務,可用於測量印度語言上單語和多語言模型的NLU性能。除了Indicglue,我們還編譯了其他評估任務的列表。該存儲庫包含用於在AIND-BERT和其他類似Bert的模型上運行所有這些評估任務的代碼。
AINDE BERT模型基於Albert模型,Albert模型是BERT的最新衍生物。它已在12種印度語言上進行了預培訓:阿薩姆語,孟加拉語,英語,古吉拉特語,印地語,卡納達語,馬拉雅拉姆語,馬拉地拉姆,馬拉提,奧里亞,旁遮普,旁遮普,泰米爾語,泰盧固語。
使用的最簡單方法是通過HuggingFace Transformers庫。可以像這樣簡單地加載:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )注意:要保留點綴(元音矩陣 /變元素),而令牌化(請閱讀此問題以獲取更多詳細信息#26),請使用以下方式:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )該代碼可以在GPU,TPU或Google的COLAB平台上運行。如果您想在Colab上運行它,則可以簡單地使用我們的微調筆記本。對於在您自己的VM中運行它,請從運行以下命令開始:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt默認情況下,安裝將使用GPU。對於TPU支持,請首先使用以下變量更新您的.bashrc :
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib "然後,安裝pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-dev要獲得幫助,只需運行:
python3 -m fine_tune.cli --help要評估使用默認超參數的特定模型,請執行:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >有關微型代碼的更高級用法,請參閱此文檔。
我們對AI4Bharat的單語語料庫進行了預培訓。語料庫具有以下語言分佈:
| 語言 | 作為 | BN | en | 古 | 你好 | kn | |
|---|---|---|---|---|---|---|---|
| 代幣編號 | 369m | 815m | 1.34b | 724m | 1.84b | 712m | |
| 語言 | ML | 先生 | 或者 | PA | ta | TE | 全部 |
| 代幣編號 | 767m | 560m | 104m | 814m | 549m | 671m | 8.9b |
Iglue是我們建議的印度語言的自然語言理解基準。在構建此基準測試時,我們的目標還涵蓋了每項任務中11種印度語言中的大多數。它由以下任務組成:
預測給定新聞文章的類型。該數據集包含9種印度語言的約125K新聞文章。例子:
文章摘要:
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
類別:政治
通過一系列單詞識別實體及其粗糙類型。該數據集包含11種印度語言的大約787K示例。
例子:
| 令牌 | चणक | पुी | को | यह | देखने | हेतु | यह | कक | कें |
| 類型 | 集團 | i-loc | o | o | o | o | o | o | o |
從給定的四個候選人頭條清單中預測新聞文章的正確標題。該數據集包含11種印度語言的約880K示例。例子:
新聞文章:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
候選人1 : ಇನ್ಫೋಸಿಸ್ಮಹಿಳಾ [正確的答案]候選人2: ಮಾನಸಿಕಮಾನಸಿಕಮೇಲೆಎಂದುಎಂದುಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆ:ಕಸಬಕಸಬಮು ಸುಕುಧಾರಿಗಳತಂಡದಿಂದತಂಡದಿಂದಯುವಕರಯುವಕರಯುವಕರಯುವಕರಯುವಕರಮೇಲೆಯುವಕರಯುವಕರಯುವಕರ:候選人4: ಕಣಿವೆ
從給定的四個候選標題列表中預測Wikipedia部分的正確標題。該數據集在11種印度語言中有400K示例。
部分文字:
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
候選人1: એકસ-મેન
候選人2: કારકીર્દિ
候選人3: નિર્માણ[正確答案]
候選人4: ઓસ્ટ્રેલિય
給定帶有一個隨機掩蓋的實體的文本,任務是預測從四個候選實體列表中掩蓋實體。該數據集包含11種語言的大約239k示例。例子:
文字
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।候選人1 :ਬਰਤਾਨੀਆ [正確的答案]候選人2 :ਭਾਰਤ候選人3 :ਸ਼ਿਕਾਗੋ候選人4 :ਪਾਕਿਸਤਾਨ
用語言句子
輸入句子
In the health sector the nation has now moved ahead from the conventional approach.
從一組4886個句子中檢索以下翻譯:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| 任務 | 姆伯特 | XLM-R | Indicbert |
|---|---|---|---|
| 新聞文章的標題預測 | 89.58 | 95.52 | 95.87 |
| Wikipedia部分標題預測 | 73.66 | 66.33 | 73.31 |
| 披肩風格的多項選擇質量質量質量質量檢查 | 39.16 | 27.98 | 41.87 |
| 文章類型分類 | 90.63 | 97.03 | 97.34 |
| 命名實體識別(F1得分) | 73.24 | 65.93 | 64.47 |
| 跨語性句子檢索任務 | 21.46 | 13.74 | 27.12 |
| 平均的 | 64.62 | 61.09 | 66.66 |
| 任務 | 任務類型 | 姆伯特 | XLM-R | Indicbert |
|---|---|---|---|---|
| BBC新聞分類 | 流派分類 | 60.55 | 75.52 | 74.60 |
| IIT產品評論 | 情感分析 | 74.57 | 78.97 | 71.32 |
| IITP電影評論 | 情感肛門 | 56.77 | 61.61 | 59.03 |
| Soham新聞文章 | 流派分類 | 80.23 | 87.6 | 78.45 |
| 米達斯話語 | 話語分析 | 71.20 | 79.94 | 78.44 |
| INLTK頭條分類 | 流派分類 | 87.95 | 93.38 | 94.52 |
| ACTSA情感分析 | 情感分析 | 48.53 | 59.33 | 61.18 |
| Winograd Nli | 自然語言推斷 | 56.34 | 55.87 | 56.34 |
| 選擇合理的替代方案(COPA) | 自然語言推斷 | 54.92 | 51.13 | 58.33 |
| Amrita精確釋義 | 釋義檢測 | 93.81 | 93.02 | 93.75 |
| Amrita粗糙釋義 | 釋義檢測 | 83.38 | 82.20 | 84.33 |
| 平均的 | 69.84 | 74.42 | 73.66 |
*注意:所有型號均已僅限於128的Max_Seq_length。
該模型可以在此處下載。檔案中包括TF檢查點和Pytorch二進製文件。另外,您也可以從HuggingFace下載它。
如果您使用任何資源,請引用以下文章:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
我們想收到您的來信:
Indicbert代碼(和模型)按照MIT許可發布。
作為AI4Bharat計劃的一部分,這項工作是志願者努力的結果。