Indic BERT v1ダウンロードIndic BERT v1ソースコードダウンロード

Indic BERT v1

その他のソースコード

1.0.0

ダウンロード

2023年5月現在、Indicbertリポジトリを使用することをお勧めします。

Incibbertは、ハギングフェイスで微調整をサポートするBERTの新しい改善された実装です。 indiccorpv2、indicxtreme、およびさまざまなindicbertv2モデルのすべてのダウンロードリンクは、こちらから入手できます。

インドベルト

ウェブサイト|ダウンロード|紙

INDIC BERTは、12の主要なインド言語のみをカバーする多言語のアルバートモデルです。これは、約90億トークンの私たちの小説コーパスで事前に訓練されており、多様なタスクのセットで評価されています。 Indic-Bertのパラメーターは、他の一般的に利用可能な多言語モデルよりも約10倍少ないパラメーターを持っていますが、これらのモデルよりもパフォーマンスまたはそれ以上のパフォーマンスを実現しています。

また、インド語のモデルと多言語モデルのNLUパフォーマンスを測定するために使用できる標準的な評価タスクのセットであるIndicglueも紹介します。 Indinggureに加えて、追加の評価タスクのリストもコンパイルします。このリポジトリには、これらのすべての評価タスクをインドバートおよびその他のバート様モデルで実行するためのコードが含まれています。

導入

Indic Bertモデルは、Bertの最近の派生物であるAlbert Modelに基づいています。アッサム、ベンガル語、英語、グジャラート語、ヒンディー語、カンナダ語、マラヤーラム語、マラティ、オリヤ、パンジャブ語、タミル語、テルグ語の12個のインド言語で事前に訓練されています。

Indic Bertを使用する最も簡単な方法は、Huggingface Transformersライブラリを使用することです。このようにロードするだけです。

 # pip3 install transformers
# pip3 install sentencepiece

from transformers import AutoModel , AutoTokenizer

tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )

注：トークン化中にアクセント（母音マトラ /ディクリティックス）を保存するには（詳細＃26のためにこの問題を読んでください）、これを使用してください。

 tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )

コードを設定します

コードは、GPU、TPU、またはGoogleのColabプラットフォームで実行できます。 Colabで実行したい場合は、微調整するノートブックを使用するだけです。自分のVMで実行するには、次のコマンドを実行することから始めます。

git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt

デフォルトでは、インストールはGPUを使用します。 TPUサポートについては、最初に次の変数を使用して.bashrc更新します。

 export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib "

次に、 pytorch-xlaをインストールします。

curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-dev

実験の実行

助けを得るには、単に実行してください：

python3 -m fine_tune.cli --help

デフォルトのハイパーパラメーターで特定のモデルを評価するには、実行してください。

python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >

微調整コードのより高度な使用については、このドキュメントを参照してください。

前脱子コーパス

AI4bharatの単一言語コーパスのインディアバートを事前に訓練しました。コーパスには次の言語の分布があります。

言語	として	bn	en	gu	こんにちは	kn
トークンの数	36.9m	815m	1.34b	724m	1.84b	712m
言語	ml	氏	または	PA	ta	te	全て
トークンの数	767m	560m	104m	814m	549m	671m	8.9b

インディアン

Iglueは、私たちが提案するインドの言語の自然言語理解ベンチマークです。このベンチマークを構築している間、私たちの目的は、各タスクの11のインド言語のほとんどをカバーすることでもありました。次のタスクで構成されています。

ニュースカテゴリ分類

特定のニュース記事のジャンルを予測します。データセットには、9つのインド言語で約125kのニュース記事が含まれています。例：

記事スニペット：

 கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .

カテゴリ：政治

名前付きエンティティ認識

単語のシーケンスでエンティティとその粗いタイプを認識します。データセットには、11のインド言語にわたって約787kの例が含まれています。

例：


トークン	चचです	पुपु	को	यहयहです	देखने	हेतु	यहयहです	कक	कक
タイプ	ブロック	i-loc	o	o	o	o	o	o	o

見出し予測

4つの候補者の見出しの特定のリストからニュース記事の正しい見出しを予測します。データセットには、11のインド言語にわたって約880kの例が含まれています。例：

ニュース記事：

 ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",

候補1 ：ಇನ್ಫೋಸಿಸ್ ಇನ್ಫೋಸಿಸ್ಮಹಿಳಾಇನ್ಫೋಸಿಸ್ ಇನ್ಫೋಸಿಸ್ [正解]候補候補2： ಮಾನಸಿಕಮಾನಸಿಕಅಸ್ವಸ್ಥೆಮೇಲೆಮಕ್ಕಳಹಲ್ಲೆ候補候補3： ಕಸಬಕಸಬಕಸಬಕಸಬಬೆಂಗ್ರೆಯಲ್ಲಿಮುಸುಕುಧಾರಿಗಳಮುಸುಕುಧಾರಿಗಳಮೂವರುಮೇಲೆಹಲ್ಲೆಗಂಭೀರ ಗಂಭೀರ候補4： ಕಣಿವೆモバイルಬಂದ್、ಪ್ರಿಂಟಿಂಗ್

ウィキペディアセクションのタイトル予測

4つの候補者タイトルの特定のリストからウィキペディアセクションの正しいタイトルを予測します。データセットには、11のインド言語にわたって400kの例があります。

セクションテキスト：

 2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.

候補1： એકસ-મેન

候補2： કારકીર્દિ

候補者3： નિર્માણનિર્માણ[正解]

候補者4： ઓસ્ટ્રેલિય

クローズスタイルの質問応答（WCQA）

エンティティがランダムにマスクされたテキストが与えられた場合、タスクは、4つの候補エンティティのリストからマスクされたエンティティを予測することです。データセットには、11の言語にわたって約239kの例が含まれています。例：

文章

ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।

候補者1 ：ਬਰਤਾਨੀਆ [正解]候補者2 ：ਭਾਰਤ候補3 ：ਸ਼ਿਕਾਗੋ候補4 ：ਪਾਕਿਸਤਾਨ

言語間文の検索（XSR）

言語の文が与えられました $ l_1 $タスクは、言語の一連の候補者の文から翻訳を取得することです $ l_2 $ 。データセットには、インドの8つの言語にわたって約39kの並列文のペアが含まれています。例：

入力文

 In the health sector the nation has now moved ahead from the conventional approach.

4886文のセットから次の翻訳を取得します。

 ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.

追加の評価タスク

自然言語の推論

Winnograd Natural Language Inference（WNLI）
もっともらしい代替品（COPA）の選択

感情分析

IITP映画は感情をレビューします
IITP製品レビュー
Actsaセンチメント分類

ジャンル分類

Soham記事のジャンル分類
INLTKヘッドラインのジャンル分類
BBCニュース記事

談話分析

ミダスの談話

評価結果

インディアン

タスク	Mbert	xlm-r	インドベルト
ニュース記事の見出しの予測	89.58	95.52	95.87
ウィキペディアセクションのタイトル予測	73.66	66.33	73.31
Clozeスタイルの複数選択QA	39.16	27.98	41.87
記事のジャンル分類	90.63	97.03	97.34
名前付きエンティティ認識（F1スコア）	73.24	65.93	64.47
言語間文の検索タスク	21.46	13.74	27.12
平均	64.62	61.09	66.66

追加のタスク

タスク	タスクタイプ	Mbert	xlm-r	インドベルト
BBCニュース分類	ジャンル分類	60.55	75.52	74.60
IIT製品レビュー	感情分析	74.57	78.97	71.32
IITPムービーレビュー	感情分析	56.77	61.61	59.03
ソハムのニュース記事	ジャンル分類	80.23	87.6	78.45
ミダスの談話	談話分析	71.20	79.94	78.44
INLTKヘッドラインの分類	ジャンル分類	87.95	93.38	94.52
ACTSAセンチメント分析	感情分析	48.53	59.33	61.18
Winograd nli	自然言語の推論	56.34	55.87	56.34
もっともらしい代替品（COPA）の選択	自然言語の推論	54.92	51.13	58.33
Amrita正確な言い換え	言い換え検出	93.81	93.02	93.75
アムリタラフな言い換え	言い換え検出	83.38	82.20	84.33
平均		69.84	74.42	73.66

*注：すべてのモデルは、128のmax_seq_lengthに制限されています。

ダウンロード

モデルはここからダウンロードできます。 TFチェックポイントとPytorchバイナリの両方がアーカイブに含まれています。または、Huggingfaceからダウンロードすることもできます。

引用

リソースのいずれかを使用している場合は、次の記事を引用してください。

 @inproceedings{kakwani2020indicnlpsuite,
    title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
    author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
    year={2020},
    booktitle={Findings of EMNLP},
}

私たちはあなたから聞いてみたいと思います：

あなたは私たちのリソースを使用しています。これらのリソースをどのように使用するかを教えてください。
これらのリソースに関するフィードバックはあります。

ライセンス

Indicbertコード（およびモデル）はMITライセンスの下でリリースされます。

貢献者

Divyanshu Kakwani
Anoop Kunchukuttan
Gokul NC
サティシュ・ゴラ
Avik Bhattacharyya
Mitesh Khapra
Pratyush Kumar

この作業は、AI4Bharatイニシアチブの一部としてのボランティアの努力の結果です。

接触

anoop kunchukuttan（[email protected]）
Mitesh Khapra（[email protected]）
Pratyush Kumar（[email protected]）

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-16
サイズ 336.35KB
から Github

Indic BERT v1

2023年5月現在、Indicbertリポジトリを使用することをお勧めします。

インドベルト

目次

導入

コードを設定します

実験の実行

前脱子コーパス

インディアン

ニュースカテゴリ分類

名前付きエンティティ認識

見出し予測

ウィキペディアセクションのタイトル予測

クローズスタイルの質問応答（WCQA）

言語間文の検索（XSR）

追加の評価タスク

自然言語の推論

感情分析

ジャンル分類

談話分析

評価結果

インディアン

追加のタスク

ダウンロード

引用

ライセンス

貢献者

接触