Incibbertは、ハギングフェイスで微調整をサポートするBERTの新しい改善された実装です。 indiccorpv2、indicxtreme、およびさまざまなindicbertv2モデルのすべてのダウンロードリンクは、こちらから入手できます。
INDIC BERTは、12の主要なインド言語のみをカバーする多言語のアルバートモデルです。これは、約90億トークンの私たちの小説コーパスで事前に訓練されており、多様なタスクのセットで評価されています。 Indic-Bertのパラメーターは、他の一般的に利用可能な多言語モデルよりも約10倍少ないパラメーターを持っていますが、これらのモデルよりもパフォーマンスまたはそれ以上のパフォーマンスを実現しています。
また、インド語のモデルと多言語モデルのNLUパフォーマンスを測定するために使用できる標準的な評価タスクのセットであるIndicglueも紹介します。 Indinggureに加えて、追加の評価タスクのリストもコンパイルします。このリポジトリには、これらのすべての評価タスクをインドバートおよびその他のバート様モデルで実行するためのコードが含まれています。
Indic Bertモデルは、Bertの最近の派生物であるAlbert Modelに基づいています。アッサム、ベンガル語、英語、グジャラート語、ヒンディー語、カンナダ語、マラヤーラム語、マラティ、オリヤ、パンジャブ語、タミル語、テルグ語の12個のインド言語で事前に訓練されています。
Indic Bertを使用する最も簡単な方法は、Huggingface Transformersライブラリを使用することです。このようにロードするだけです。
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )注:トークン化中にアクセント(母音マトラ /ディクリティックス)を保存するには(詳細#26のためにこの問題を読んでください)、これを使用してください。
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )コードは、GPU、TPU、またはGoogleのColabプラットフォームで実行できます。 Colabで実行したい場合は、微調整するノートブックを使用するだけです。自分のVMで実行するには、次のコマンドを実行することから始めます。
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txtデフォルトでは、インストールはGPUを使用します。 TPUサポートについては、最初に次の変数を使用して.bashrc更新します。
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib "次に、 pytorch-xlaをインストールします。
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-dev助けを得るには、単に実行してください:
python3 -m fine_tune.cli --helpデフォルトのハイパーパラメーターで特定のモデルを評価するには、実行してください。
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >微調整コードのより高度な使用については、このドキュメントを参照してください。
AI4bharatの単一言語コーパスのインディアバートを事前に訓練しました。コーパスには次の言語の分布があります。
| 言語 | として | bn | en | gu | こんにちは | kn | |
|---|---|---|---|---|---|---|---|
| トークンの数 | 36.9m | 815m | 1.34b | 724m | 1.84b | 712m | |
| 言語 | ml | 氏 | または | PA | ta | te | 全て |
| トークンの数 | 767m | 560m | 104m | 814m | 549m | 671m | 8.9b |
Iglueは、私たちが提案するインドの言語の自然言語理解ベンチマークです。このベンチマークを構築している間、私たちの目的は、各タスクの11のインド言語のほとんどをカバーすることでもありました。次のタスクで構成されています。
特定のニュース記事のジャンルを予測します。データセットには、9つのインド言語で約125kのニュース記事が含まれています。例:
記事スニペット:
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
カテゴリ:政治
単語のシーケンスでエンティティとその粗いタイプを認識します。データセットには、11のインド言語にわたって約787kの例が含まれています。
例:
| トークン | चचです | पुपु | को | यहयहです | देखने | हेतु | यहयहです | कक | कक |
| タイプ | ブロック | i-loc | o | o | o | o | o | o | o |
4つの候補者の見出しの特定のリストからニュース記事の正しい見出しを予測します。データセットには、11のインド言語にわたって約880kの例が含まれています。例:
ニュース記事:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
候補1 :ಇನ್ಫೋಸಿಸ್ ಇನ್ಫೋಸಿಸ್ಮಹಿಳಾಇನ್ಫೋಸಿಸ್ ಇನ್ಫೋಸಿಸ್ [正解]候補候補2: ಮಾನಸಿಕಮಾನಸಿಕಅಸ್ವಸ್ಥೆಮೇಲೆಮಕ್ಕಳಹಲ್ಲೆ候補候補3: ಕಸಬಕಸಬಕಸಬಕಸಬಬೆಂಗ್ರೆಯಲ್ಲಿಮುಸುಕುಧಾರಿಗಳಮುಸುಕುಧಾರಿಗಳಮೂವರುಮೇಲೆಹಲ್ಲೆಗಂಭೀರ ಗಂಭೀರ候補4: ಕಣಿವೆモバイルಬಂದ್、ಪ್ರಿಂಟಿಂಗ್
4つの候補者タイトルの特定のリストからウィキペディアセクションの正しいタイトルを予測します。データセットには、11のインド言語にわたって400kの例があります。
セクションテキスト:
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
候補1: એકસ-મેન
候補2: કારકીર્દિ
候補者3: નિર્માણનિર્માણ[正解]
候補者4: ઓસ્ટ્રેલિય
エンティティがランダムにマスクされたテキストが与えられた場合、タスクは、4つの候補エンティティのリストからマスクされたエンティティを予測することです。データセットには、11の言語にわたって約239kの例が含まれています。例:
文章
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।候補者1 :ਬਰਤਾਨੀਆ [正解]候補者2 :ਭਾਰਤ候補3 :ਸ਼ਿਕਾਗੋ候補4 :ਪਾਕਿਸਤਾਨ
言語の文が与えられました
入力文
In the health sector the nation has now moved ahead from the conventional approach.
4886文のセットから次の翻訳を取得します。
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| タスク | Mbert | xlm-r | インドベルト |
|---|---|---|---|
| ニュース記事の見出しの予測 | 89.58 | 95.52 | 95.87 |
| ウィキペディアセクションのタイトル予測 | 73.66 | 66.33 | 73.31 |
| Clozeスタイルの複数選択QA | 39.16 | 27.98 | 41.87 |
| 記事のジャンル分類 | 90.63 | 97.03 | 97.34 |
| 名前付きエンティティ認識(F1スコア) | 73.24 | 65.93 | 64.47 |
| 言語間文の検索タスク | 21.46 | 13.74 | 27.12 |
| 平均 | 64.62 | 61.09 | 66.66 |
| タスク | タスクタイプ | Mbert | xlm-r | インドベルト |
|---|---|---|---|---|
| BBCニュース分類 | ジャンル分類 | 60.55 | 75.52 | 74.60 |
| IIT製品レビュー | 感情分析 | 74.57 | 78.97 | 71.32 |
| IITPムービーレビュー | 感情分析 | 56.77 | 61.61 | 59.03 |
| ソハムのニュース記事 | ジャンル分類 | 80.23 | 87.6 | 78.45 |
| ミダスの談話 | 談話分析 | 71.20 | 79.94 | 78.44 |
| INLTKヘッドラインの分類 | ジャンル分類 | 87.95 | 93.38 | 94.52 |
| ACTSAセンチメント分析 | 感情分析 | 48.53 | 59.33 | 61.18 |
| Winograd nli | 自然言語の推論 | 56.34 | 55.87 | 56.34 |
| もっともらしい代替品(COPA)の選択 | 自然言語の推論 | 54.92 | 51.13 | 58.33 |
| Amrita正確な言い換え | 言い換え検出 | 93.81 | 93.02 | 93.75 |
| アムリタラフな言い換え | 言い換え検出 | 83.38 | 82.20 | 84.33 |
| 平均 | 69.84 | 74.42 | 73.66 |
*注:すべてのモデルは、128のmax_seq_lengthに制限されています。
モデルはここからダウンロードできます。 TFチェックポイントとPytorchバイナリの両方がアーカイブに含まれています。または、Huggingfaceからダウンロードすることもできます。
リソースのいずれかを使用している場合は、次の記事を引用してください。
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
私たちはあなたから聞いてみたいと思います:
Indicbertコード(およびモデル)はMITライセンスの下でリリースされます。
この作業は、AI4Bharatイニシアチブの一部としてのボランティアの努力の結果です。