Andiabert是用HuggingFace进行微调的新的和改进的Bert支持的实施。 IndiNCORPV2,IndiNxTreme和各种IndienBertV2模型的所有下载链接都可以在此处提供。
AIND AIND BERT是一种多语言的Albert模型,仅涵盖12种主要的印度语言。它已在我们的大约90亿个代币的新型语料库中进行了预训练,并对一系列不同的任务进行了评估。与其他流行的公开多语言模型相比,Indic-Bert的参数要少约10倍,而它也比这些模型获得了PAR或更好的性能。
我们还介绍了Indicglue-一组标准评估任务,可用于测量印度语言上单语和多语言模型的NLU性能。除了Indicglue,我们还编译了其他评估任务的列表。该存储库包含用于在AIND-BERT和其他类似Bert的模型上运行所有这些评估任务的代码。
AINDE BERT模型基于Albert模型,Albert模型是BERT的最新衍生物。它已在12种印度语言上进行了预培训:阿萨姆语,孟加拉语,英语,古吉拉特语,印地语,卡纳达语,马拉雅拉姆语,马拉地拉姆,马拉提,奥里亚,旁遮普,旁遮普,泰米尔语,泰卢固语。
使用的最简单方法是通过HuggingFace Transformers库。可以像这样简单地加载:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )注意:要保留点缀(元音矩阵 /变元素),而令牌化(请阅读此问题以获取更多详细信息#26),请使用以下方式:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )该代码可以在GPU,TPU或Google的COLAB平台上运行。如果您想在Colab上运行它,则可以简单地使用我们的微调笔记本。对于在您自己的VM中运行它,请从运行以下命令开始:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt默认情况下,安装将使用GPU。对于TPU支持,请首先使用以下变量更新您的.bashrc :
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib "然后,安装pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-dev要获得帮助,只需运行:
python3 -m fine_tune.cli --help要评估使用默认超参数的特定模型,请执行:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >有关微型代码的更高级用法,请参阅此文档。
我们对AI4Bharat的单语语料库进行了预培训。语料库具有以下语言分布:
| 语言 | 作为 | BN | en | 古 | 你好 | kn | |
|---|---|---|---|---|---|---|---|
| 代币编号 | 369m | 815m | 1.34b | 724m | 1.84b | 712m | |
| 语言 | ML | 先生 | 或者 | PA | ta | TE | 全部 |
| 代币编号 | 767m | 560m | 104m | 814m | 549m | 671m | 8.9b |
Iglue是我们建议的印度语言的自然语言理解基准。在构建此基准测试时,我们的目标还涵盖了每项任务中11种印度语言中的大多数。它由以下任务组成:
预测给定新闻文章的类型。该数据集包含9种印度语言的约125K新闻文章。例子:
文章摘要:
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
类别:政治
通过一系列单词识别实体及其粗糙类型。该数据集包含11种印度语言的大约787K示例。
例子:
| 令牌 | चणक | पुी | को | यह | देखने | हेतु | यह | कक | कें |
| 类型 | 集团 | i-loc | o | o | o | o | o | o | o |
从给定的四个候选人头条清单中预测新闻文章的正确标题。该数据集包含11种印度语言的约880K示例。例子:
新闻文章:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
候选人1 : ಇನ್ಫೋಸಿಸ್ಮಹಿಳಾ [正确的答案]候选人2: ಮಾನಸಿಕಮಾನಸಿಕಮೇಲೆಎಂದುಎಂದುಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆ:ಕಸಬಕಸಬಮುಸುಕುಧಾರಿಗಳತಂಡದಿಂದತಂಡದಿಂದಯುವಕರಯುವಕರಯುವಕರಯುವಕರಯುವಕರಮೇಲೆಯುವಕರಯುವಕರಯುವಕರ:候选人4: ಕಣಿವೆ
从给定的四个候选标题列表中预测Wikipedia部分的正确标题。该数据集在11种印度语言中有400K示例。
部分文字:
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
候选人1: એકસ-મેન
候选人2: કારકીર્દિ
候选人3: નિર્માણ[正确答案]
候选人4: ઓસ્ટ્રેલિય
给定带有一个随机掩盖的实体的文本,任务是预测从四个候选实体列表中掩盖实体。该数据集包含11种语言的大约239k示例。例子:
文本
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।候选人1 :ਬਰਤਾਨੀਆ [正确的答案]候选人2 :ਭਾਰਤ候选人3 :ਸ਼ਿਕਾਗੋ候选人4 :ਪਾਕਿਸਤਾਨ
用语言句子
输入句子
In the health sector the nation has now moved ahead from the conventional approach.
从一组4886个句子中检索以下翻译:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| 任务 | 姆伯特 | XLM-R | Indicbert |
|---|---|---|---|
| 新闻文章的标题预测 | 89.58 | 95.52 | 95.87 |
| Wikipedia部分标题预测 | 73.66 | 66.33 | 73.31 |
| 披肩风格的多项选择质量质量质量质量检查 | 39.16 | 27.98 | 41.87 |
| 文章类型分类 | 90.63 | 97.03 | 97.34 |
| 命名实体识别(F1得分) | 73.24 | 65.93 | 64.47 |
| 跨语性句子检索任务 | 21.46 | 13.74 | 27.12 |
| 平均的 | 64.62 | 61.09 | 66.66 |
| 任务 | 任务类型 | 姆伯特 | XLM-R | Indicbert |
|---|---|---|---|---|
| BBC新闻分类 | 流派分类 | 60.55 | 75.52 | 74.60 |
| IIT产品评论 | 情感分析 | 74.57 | 78.97 | 71.32 |
| IITP电影评论 | 情感肛门 | 56.77 | 61.61 | 59.03 |
| Soham新闻文章 | 流派分类 | 80.23 | 87.6 | 78.45 |
| 米达斯话语 | 话语分析 | 71.20 | 79.94 | 78.44 |
| INLTK头条分类 | 流派分类 | 87.95 | 93.38 | 94.52 |
| ACTSA情感分析 | 情感分析 | 48.53 | 59.33 | 61.18 |
| Winograd Nli | 自然语言推断 | 56.34 | 55.87 | 56.34 |
| 选择合理的替代方案(COPA) | 自然语言推断 | 54.92 | 51.13 | 58.33 |
| Amrita精确释义 | 释义检测 | 93.81 | 93.02 | 93.75 |
| Amrita粗糙释义 | 释义检测 | 83.38 | 82.20 | 84.33 |
| 平均的 | 69.84 | 74.42 | 73.66 |
*注意:所有型号均已仅限于128的Max_Seq_length。
该模型可以在此处下载。档案中包括TF检查点和Pytorch二进制文件。另外,您也可以从HuggingFace下载它。
如果您使用任何资源,请引用以下文章:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
我们想收到您的来信:
Indicbert代码(和模型)按照MIT许可发布。
作为AI4Bharat计划的一部分,这项工作是志愿者努力的结果。