Indic BERT v1下载 - Indic BERT v1源代码下载

Indic BERT v1

其他源码

1.0.0

下载

截至2023年5月，我们建议使用Indionbert存储库：

Andiabert是用HuggingFace进行微调的新的和改进的Bert支持的实施。 IndiNCORPV2，IndiNxTreme和各种IndienBertV2模型的所有下载链接都可以在此处提供。

Indicbert

网站|下载|纸

AIND AIND BERT是一种多语言的Albert模型，仅涵盖12种主要的印度语言。它已在我们的大约90亿个代币的新型语料库中进行了预训练，并对一系列不同的任务进行了评估。与其他流行的公开多语言模型相比，Indic-Bert的参数要少约10倍，而它也比这些模型获得了PAR或更好的性能。

我们还介绍了Indicglue-一组标准评估任务，可用于测量印度语言上单语和多语言模型的NLU性能。除了Indicglue，我们还编译了其他评估任务的列表。该存储库包含用于在AIND-BERT和其他类似Bert的模型上运行所有这些评估任务的代码。

介绍

AINDE BERT模型基于Albert模型，Albert模型是BERT的最新衍生物。它已在12种印度语言上进行了预培训：阿萨姆语，孟加拉语，英语，古吉拉特语，印地语，卡纳达语，马拉雅拉姆语，马拉地拉姆，马拉提，奥里亚，旁遮普，旁遮普，泰米尔语，泰卢固语。

使用的最简单方法是通过HuggingFace Transformers库。可以像这样简单地加载：

 # pip3 install transformers
# pip3 install sentencepiece

from transformers import AutoModel , AutoTokenizer

tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )

注意：要保留点缀（元音矩阵 /变元素），而令牌化（请阅读此问题以获取更多详细信息＃26），请使用以下方式：

 tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )

设置代码

该代码可以在GPU，TPU或Google的COLAB平台上运行。如果您想在Colab上运行它，则可以简单地使用我们的微调笔记本。对于在您自己的VM中运行它，请从运行以下命令开始：

git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt

默认情况下，安装将使用GPU。对于TPU支持，请首先使用以下变量更新您的.bashrc ：

 export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib "

然后，安装pytorch-xla ：

curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-dev

运行实验

要获得帮助，只需运行：

python3 -m fine_tune.cli --help

要评估使用默认超参数的特定模型，请执行：

python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >

有关微型代码的更高级用法，请参阅此文档。

预训练语料库

我们对AI4Bharat的单语语料库进行了预培训。语料库具有以下语言分布：

语言	作为	BN	en	古	你好	kn
代币编号	369m	815m	1.34b	724m	1.84b	712m
语言	ML	先生	或者	PA	ta	TE	全部
代币编号	767m	560m	104m	814m	549m	671m	8.9b

Indicglue

Iglue是我们建议的印度语言的自然语言理解基准。在构建此基准测试时，我们的目标还涵盖了每项任务中11种印度语言中的大多数。它由以下任务组成：

新闻类别分类

预测给定新闻文章的类型。该数据集包含9种印度语言的约125K新闻文章。例子：

文章摘要：

 கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .

类别：政治

命名实体识别

通过一系列单词识别实体及其粗糙类型。该数据集包含11种印度语言的大约787K示例。

例子：


令牌	चणक	पुी	को	यह	देखने	हेतु	यह	कक	कें
类型	集团	i-loc	o	o	o	o	o	o	o

标题预测

从给定的四个候选人头条清单中预测新闻文章的正确标题。该数据集包含11种印度语言的约880K示例。例子：

新闻文章：

 ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",

候选人1 ： ಇನ್ಫೋಸಿಸ್ಮಹಿಳಾ [正确的答案]候选人2： ಮಾನಸಿಕಮಾನಸಿಕಮೇಲೆಎಂದುಎಂದುಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆ：ಕಸಬಕಸಬಮುಸುಕುಧಾರಿಗಳತಂಡದಿಂದತಂಡದಿಂದಯುವಕರಯುವಕರಯುವಕರಯುವಕರಯುವಕರಮೇಲೆಯುವಕರಯುವಕರಯುವಕರ：候选人4： ಕಣಿವೆ

Wikipedia部分标题预测

从给定的四个候选标题列表中预测Wikipedia部分的正确标题。该数据集在11种印度语言中有400K示例。

部分文字：

 2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.

候选人1： એકસ-મેન

候选人2： કારકીર્દિ

候选人3： નિર્માણ[正确答案]

候选人4： ઓસ્ટ્રેલિય

披风风格的问答（WCQA）

给定带有一个随机掩盖的实体的文本，任务是预测从四个候选实体列表中掩盖实体。该数据集包含11种语言的大约239k示例。例子：

文本

ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।

候选人1 ：ਬਰਤਾਨੀਆ [正确的答案]候选人2 ：ਭਾਰਤ候选人3 ：ਸ਼ਿਕਾਗੋ候选人4 ：ਪਾਕਿਸਤਾਨ

跨语性句子检索（XSR）

用语言句子 $ L_1 $任务是从语言的一组候选句子中检索其翻译 $ L_2 $ 。该数据集包含大约8种印度语言的约39k平行句子对。例子：

输入句子

 In the health sector the nation has now moved ahead from the conventional approach.

从一组4886个句子中检索以下翻译：

 ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.

其他评估任务

自然语言推断

Winnograd自然语推断（WNLI）
选择合理的替代品（Copa）

情感分析

IITP电影评论情感
IITP产品评论
ACTSA情感分类

流派分类

Soham文章类型分类
INLTK头条类型分类
BBC新闻文章

话语分析

米达斯话语

评估结果

Indicglue

任务	姆伯特	XLM-R	Indicbert
新闻文章的标题预测	89.58	95.52	95.87
Wikipedia部分标题预测	73.66	66.33	73.31
披肩风格的多项选择质量质量质量质量检查	39.16	27.98	41.87
文章类型分类	90.63	97.03	97.34
命名实体识别（F1得分）	73.24	65.93	64.47
跨语性句子检索任务	21.46	13.74	27.12
平均的	64.62	61.09	66.66

其他任务

任务	任务类型	姆伯特	XLM-R	Indicbert
BBC新闻分类	流派分类	60.55	75.52	74.60
IIT产品评论	情感分析	74.57	78.97	71.32
IITP电影评论	情感肛门	56.77	61.61	59.03
Soham新闻文章	流派分类	80.23	87.6	78.45
米达斯话语	话语分析	71.20	79.94	78.44
INLTK头条分类	流派分类	87.95	93.38	94.52
ACTSA情感分析	情感分析	48.53	59.33	61.18
Winograd Nli	自然语言推断	56.34	55.87	56.34
选择合理的替代方案（COPA）	自然语言推断	54.92	51.13	58.33
Amrita精确释义	释义检测	93.81	93.02	93.75
Amrita粗糙释义	释义检测	83.38	82.20	84.33
平均的		69.84	74.42	73.66

*注意：所有型号均已仅限于128的Max_Seq_length。

下载

该模型可以在此处下载。档案中包括TF检查点和Pytorch二进制文件。另外，您也可以从HuggingFace下载它。

引用

如果您使用任何资源，请引用以下文章：

 @inproceedings{kakwani2020indicnlpsuite,
    title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
    author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
    year={2020},
    booktitle={Findings of EMNLP},
}

我们想收到您的来信：

您正在使用我们的资源。请让我们知道您如何使用这些资源。
您对这些资源有任何反馈。

执照

Indicbert代码（和模型）按照MIT许可发布。

贡献者

Divyanshu Kakwani
Anoop Kunchukuttan
Gokul NC
Satish Golla
Avik Bhattacharyya
Mitesh Khapra
Pratyush Kumar

作为AI4Bharat计划的一部分，这项工作是志愿者努力的结果。

接触

Anoop Kunchukuttan（[email protected]）
Mitesh Khapra（[email protected]）
Pratyush Kumar（[email protected]）

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-16
大小 336.35KB
来自于 Github

Indic BERT v1

截至2023年5月，我们建议使用Indionbert存储库：

Indicbert

目录

介绍

设置代码

运行实验

预训练语料库

Indicglue

新闻类别分类

命名实体识别

标题预测

Wikipedia部分标题预测

披风风格的问答（WCQA）

跨语性句子检索（XSR）

其他评估任务

自然语言推断

情感分析

流派分类

话语分析

评估结果

Indicglue

其他任务

下载

引用

执照

贡献者

接触