Indic BERT v1下載 - Indic BERT v1源代碼下載

Indic BERT v1

其他源碼

1.0.0

下載

截至2023年5月，我們建議使用Indionbert存儲庫：

Andiabert是用HuggingFace進行微調的新的和改進的Bert支持的實施。 IndiNCORPV2，IndiNxTreme和各種IndienBertV2模型的所有下載鏈接都可以在此處提供。

Indicbert

網站|下載|紙

AIND AIND BERT是一種多語言的Albert模型，僅涵蓋12種主要的印度語言。它已在我們的大約90億個代幣的新型語料庫中進行了預訓練，並對一系列不同的任務進行了評估。與其他流行的公開多語言模型相比，Indic-Bert的參數要少約10倍，而它也比這些模型獲得了PAR或更好的性能。

我們還介紹了Indicglue-一組標準評估任務，可用於測量印度語言上單語和多語言模型的NLU性能。除了Indicglue，我們還編譯了其他評估任務的列表。該存儲庫包含用於在AIND-BERT和其他類似Bert的模型上運行所有這些評估任務的代碼。

介紹

AINDE BERT模型基於Albert模型，Albert模型是BERT的最新衍生物。它已在12種印度語言上進行了預培訓：阿薩姆語，孟加拉語，英語，古吉拉特語，印地語，卡納達語，馬拉雅拉姆語，馬拉地拉姆，馬拉提，奧里亞，旁遮普，旁遮普，泰米爾語，泰盧固語。

使用的最簡單方法是通過HuggingFace Transformers庫。可以像這樣簡單地加載：

 # pip3 install transformers
# pip3 install sentencepiece

from transformers import AutoModel , AutoTokenizer

tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )

注意：要保留點綴（元音矩陣 /變元素），而令牌化（請閱讀此問題以獲取更多詳細信息＃26），請使用以下方式：

 tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )

設置代碼

該代碼可以在GPU，TPU或Google的COLAB平台上運行。如果您想在Colab上運行它，則可以簡單地使用我們的微調筆記本。對於在您自己的VM中運行它，請從運行以下命令開始：

git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt

默認情況下，安裝將使用GPU。對於TPU支持，請首先使用以下變量更新您的.bashrc ：

 export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib "

然後，安裝pytorch-xla ：

curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-dev

運行實驗

要獲得幫助，只需運行：

python3 -m fine_tune.cli --help

要評估使用默認超參數的特定模型，請執行：

python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >

有關微型代碼的更高級用法，請參閱此文檔。

預訓練語料庫

我們對AI4Bharat的單語語料庫進行了預培訓。語料庫具有以下語言分佈：

語言	作為	BN	en	古	你好	kn
代幣編號	369m	815m	1.34b	724m	1.84b	712m
語言	ML	先生	或者	PA	ta	TE	全部
代幣編號	767m	560m	104m	814m	549m	671m	8.9b

Indicglue

Iglue是我們建議的印度語言的自然語言理解基準。在構建此基準測試時，我們的目標還涵蓋了每項任務中11種印度語言中的大多數。它由以下任務組成：

新聞類別分類

預測給定新聞文章的類型。該數據集包含9種印度語言的約125K新聞文章。例子：

文章摘要：

 கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .

類別：政治

命名實體識別

通過一系列單詞識別實體及其粗糙類型。該數據集包含11種印度語言的大約787K示例。

例子：


令牌	चणक	पुी	को	यह	देखने	हेतु	यह	कक	कें
類型	集團	i-loc	o	o	o	o	o	o	o

標題預測

從給定的四個候選人頭條清單中預測新聞文章的正確標題。該數據集包含11種印度語言的約880K示例。例子：

新聞文章：

 ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",

候選人1 ： ಇನ್ಫೋಸಿಸ್ಮಹಿಳಾ [正確的答案]候選人2： ಮಾನಸಿಕಮಾನಸಿಕಮೇಲೆಎಂದುಎಂದುಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆ：ಕಸಬಕಸಬಮು ಸುಕುಧಾರಿಗಳತಂಡದಿಂದತಂಡದಿಂದಯುವಕರಯುವಕರಯುವಕರಯುವಕರಯುವಕರಮೇಲೆಯುವಕರಯುವಕರಯುವಕರ：候選人4： ಕಣಿವೆ

Wikipedia部分標題預測

從給定的四個候選標題列表中預測Wikipedia部分的正確標題。該數據集在11種印度語言中有400K示例。

部分文字：

 2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.

候選人1： એકસ-મેન

候選人2： કારકીર્દિ

候選人3： નિર્માણ[正確答案]

候選人4： ઓસ્ટ્રેલિય

披風風格的問答（WCQA）

給定帶有一個隨機掩蓋的實體的文本，任務是預測從四個候選實體列表中掩蓋實體。該數據集包含11種語言的大約239k示例。例子：

文字

ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।

候選人1 ：ਬਰਤਾਨੀਆ [正確的答案]候選人2 ：ਭਾਰਤ候選人3 ：ਸ਼ਿਕਾਗੋ候選人4 ：ਪਾਕਿਸਤਾਨ

跨語性句子檢索（XSR）

用語言句子 $ L_1 $任務是從語言的一組候選句子中檢索其翻譯 $ L_2 $ 。該數據集包含大約8種印度語言的約39k平行句子對。例子：

輸入句子

 In the health sector the nation has now moved ahead from the conventional approach.

從一組4886個句子中檢索以下翻譯：

 ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.

其他評估任務

自然語言推斷

Winnograd自然語推斷（WNLI）
選擇合理的替代品（Copa）

情感分析

IITP電影評論情感
IITP產品評論
ACTSA情感分類

流派分類

Soham文章類型分類
INLTK頭條類型分類
BBC新聞文章

話語分析

米達斯話語

評估結果

Indicglue

任務	姆伯特	XLM-R	Indicbert
新聞文章的標題預測	89.58	95.52	95.87
Wikipedia部分標題預測	73.66	66.33	73.31
披肩風格的多項選擇質量質量質量質量檢查	39.16	27.98	41.87
文章類型分類	90.63	97.03	97.34
命名實體識別（F1得分）	73.24	65.93	64.47
跨語性句子檢索任務	21.46	13.74	27.12
平均的	64.62	61.09	66.66

其他任務

任務	任務類型	姆伯特	XLM-R	Indicbert
BBC新聞分類	流派分類	60.55	75.52	74.60
IIT產品評論	情感分析	74.57	78.97	71.32
IITP電影評論	情感肛門	56.77	61.61	59.03
Soham新聞文章	流派分類	80.23	87.6	78.45
米達斯話語	話語分析	71.20	79.94	78.44
INLTK頭條分類	流派分類	87.95	93.38	94.52
ACTSA情感分析	情感分析	48.53	59.33	61.18
Winograd Nli	自然語言推斷	56.34	55.87	56.34
選擇合理的替代方案（COPA）	自然語言推斷	54.92	51.13	58.33
Amrita精確釋義	釋義檢測	93.81	93.02	93.75
Amrita粗糙釋義	釋義檢測	83.38	82.20	84.33
平均的		69.84	74.42	73.66

*注意：所有型號均已僅限於128的Max_Seq_length。

下載

該模型可以在此處下載。檔案中包括TF檢查點和Pytorch二進製文件。另外，您也可以從HuggingFace下載它。

引用

如果您使用任何資源，請引用以下文章：

 @inproceedings{kakwani2020indicnlpsuite,
    title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
    author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
    year={2020},
    booktitle={Findings of EMNLP},
}

我們想收到您的來信：