Indicbert adalah implementasi yang baru dan lebih baik dari faring pendukung Bert dengan Huggingface. Semua tautan unduhan untuk indicCorpv2, indicXtreme dan berbagai model indicbertv2 tersedia di sini.
Indic Bert adalah model Albert multibahasa yang secara eksklusif mencakup 12 bahasa India utama. Ini sudah terlatih di corpus novel kami sekitar 9 miliar token dan dievaluasi pada serangkaian tugas yang beragam. Indic-BERT memiliki sekitar 10x lebih sedikit parameter daripada model multibahasa populer yang tersedia untuk umum sementara juga mencapai kinerja di-par atau lebih baik daripada model ini.
Kami juga memperkenalkan indicglue - satu set tugas evaluasi standar yang dapat digunakan untuk mengukur kinerja NLU model monolingual dan multibahasa pada bahasa India. Seiring dengan indicglue, kami juga menyusun daftar tugas evaluasi tambahan. Repositori ini berisi kode untuk menjalankan semua tugas evaluasi ini pada Indic-Bert dan model seperti Bert lainnya.
Model indic Bert didasarkan pada model Albert, turunan terbaru dari Bert. Ini dilatih sebelumnya pada 12 bahasa India: Assam, Bengali, Inggris, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil, Telugu.
Cara termudah untuk menggunakan indic Bert adalah melalui perpustakaan Huggingface Transformers. Ini bisa dimuat seperti ini:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )CATATAN: Untuk mempertahankan aksen (vokal matras / diakritik) saat tokenisasi (baca masalah ini untuk detail lebih lanjut #26), gunakan ini:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )Kode dapat dijalankan pada GPU, TPU atau di platform Google Colab. Jika Anda ingin menjalankannya di Colab, Anda dapat menggunakan buku catatan yang menyempurnakan kami. Untuk menjalankannya di VM Anda sendiri, mulailah dengan menjalankan perintah berikut:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt Secara default, instalasi akan menggunakan GPU. Untuk dukungan TPU, pertama perbarui .bashrc Anda dengan variabel berikut:
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib " Kemudian, instal pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-devUntuk mendapatkan bantuan, cukup jalankan:
python3 -m fine_tune.cli --helpUntuk mengevaluasi model spesifik dengan hyper-parameter default, jalankan:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >Untuk penggunaan kode fine-tuning yang lebih lanjut, rujuk dokumen ini.
Kami pra-terlatih Indic-Bert pada korpus monolingual Ai4bharat. Corpus memiliki distribusi bahasa berikut:
| Bahasa | sebagai | bn | en | gu | Hai | kn | |
|---|---|---|---|---|---|---|---|
| Jumlah token | 36.9m | 815m | 1.34b | 724m | 1.84b | 712m | |
| Bahasa | ml | Tn. | atau | pa | ta | te | semua |
| Jumlah token | 767m | 560m | 104m | 814m | 549m | 671m | 8.9b |
Iglue adalah tolok ukur pemahaman bahasa alami untuk bahasa India yang kami usulkan. Sambil membangun tolok ukur ini, tujuan kami juga untuk mencakup sebagian besar dari 11 bahasa India untuk setiap tugas. Ini terdiri dari tugas -tugas berikut:
Memprediksi genre artikel berita yang diberikan. Dataset berisi sekitar 125k artikel berita di 9 bahasa India. Contoh:
Cuplikan artikel :
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
Kategori : Politik
Mengenali entitas dan tipe kasar mereka dalam urutan kata. Dataset berisi sekitar 787k contoh di 11 bahasa India.
Contoh :
| Token | चाणक्य | पुरी | को | यहाँ | देखने | हेतु | यहाँ | क्लिक | करें |
| Jenis | BLOK | I-loc | HAI | HAI | HAI | HAI | HAI | HAI | HAI |
Prediksi tajuk yang benar untuk artikel berita dari daftar empat calon berita utama. Dataset berisi sekitar 880k contoh di 11 bahasa India. Contoh:
Artikel Berita:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
Calon 1 : ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯ ಬರ್ಬರ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಹತ್ಯೆ ಎಂದು ಎಂದು ಎಂದು ಎಂದು ಭೀಕರ ಭೀಕರ ಭೀಕರ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಗಂಭೀರ ಓರ್ವ ಮೂವರು ಮೂವರು ಮೂವರು ಮೂವರು ಯುವಕರ ಯುವಕರ ಯುವಕರ ಯುವಕರ ಯುವಕರ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ
Prediksi judul yang benar untuk bagian Wikipedia dari daftar empat judul kandidat yang diberikan. Dataset memiliki 400 ribu contoh di 11 bahasa India.
Teks Bagian :
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
Calon 1: એકસ-મેન
Calon 2: કારકીર્દિ
Calon 3: નિર્માણ કંપન [ Jawaban yang Benar ]
Calon 4: ઓસ્ટ્રેલિય
Diberikan teks dengan entitas bertopeng secara acak, tugasnya adalah untuk memprediksi bahwa entitas bertopeng dari daftar 4 entitas kandidat. Dataset berisi sekitar 239k contoh di 11 bahasa. Contoh:
Teks
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।Calon 1 : ਬਰਤਾਨੀਆ [Jawaban yang Benar] Kandidat 2 : ਭਾਰਤ Calon 3 : ਸ਼ਿਕਾਗੋ Calon 4 : ਪਾਕਿਸਤਾਨ
Diberi kalimat dalam bahasa
Kalimat masukan
In the health sector the nation has now moved ahead from the conventional approach.
Ambil terjemahan berikut dari satu set 4886 kalimat:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| Tugas | mbert | Xlm-r | Indicbert |
|---|---|---|---|
| Prediksi Headline Artikel Berita | 89.58 | 95.52 | 95.87 |
| Prediksi judul bagian wikipedia | 73.66 | 66.33 | 73.31 |
| QA pilihan ganda bergaya cloze | 39.16 | 27.98 | 41.87 |
| Klasifikasi genre artikel | 90.63 | 97.03 | 97.34 |
| Named Entity Recognition (F1-Score) | 73.24 | 65.93 | 64.47 |
| Tugas pengambilan kalimat lintas-bahasa | 21.46 | 13.74 | 27.12 |
| Rata-rata | 64.62 | 61.09 | 66.66 |
| Tugas | Jenis tugas | mbert | Xlm-r | Indicbert |
|---|---|---|---|---|
| Klasifikasi Berita BBC | Klasifikasi Genre | 60.55 | 75.52 | 74.60 |
| Ulasan produk IIT | Analisis sentimen | 74.57 | 78.97 | 71.32 |
| Ulasan film IITP | Analaysis sentimen | 56.77 | 61.61 | 59.03 |
| Artikel berita SOHAM | Klasifikasi Genre | 80.23 | 87.6 | 78.45 |
| Wacana Midas | Analisis wacana | 71.20 | 79.94 | 78.44 |
| Klasifikasi berita utama INLTK | Klasifikasi Genre | 87.95 | 93.38 | 94.52 |
| Analisis Sentimen ACTSA | Analisis sentimen | 48.53 | 59.33 | 61.18 |
| Winograd NLI | Kesimpulan Bahasa Alami | 56.34 | 55.87 | 56.34 |
| Pilihan alternatif yang masuk akal (COPA) | Kesimpulan Bahasa Alami | 54.92 | 51.13 | 58.33 |
| Amrita Parafrase yang tepat | Deteksi parafrase | 93.81 | 93.02 | 93.75 |
| Amrita Paraphrase kasar | Deteksi parafrase | 83.38 | 82.20 | 84.33 |
| Rata-rata | 69.84 | 74.42 | 73.66 |
* Catatan: Semua model telah dibatasi pada max_seq_length dari 128.
Model dapat diunduh di sini. Kedua pos pemeriksaan TF dan biner Pytorch termasuk dalam arsip. Atau, Anda juga dapat mengunduhnya dari Huggingface.
Jika Anda menggunakan salah satu sumber daya, silakan kutip artikel berikut:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
Kami ingin mendengar dari Anda jika:
Kode indicbert (dan model) dirilis di bawah lisensi MIT.
Pekerjaan ini adalah hasil dari upaya sukarelawan sebagai bagian dari inisiatif AI4Bharat.