Indicbert เป็นการดำเนินการใหม่และปรับปรุงให้ดีขึ้นของ Bert ที่สนับสนุนการปรับจูนด้วย HuggingFace ลิงก์ดาวน์โหลดทั้งหมดสำหรับ indiccorpv2, indicxtreme และรุ่น indicbertv2 ต่างๆมีอยู่ที่นี่
Indic Bert เป็นรุ่นอัลเบิร์ตหลายภาษาที่ครอบคลุมเฉพาะ 12 ภาษาอินเดียที่สำคัญ มันได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับคลังข้อมูลนวนิยายของเราประมาณ 9 พันล้านโทเค็นและประเมินผลในชุดของงานที่หลากหลาย Indic-Bert มีพารามิเตอร์น้อยกว่ารุ่นอื่น ๆ ที่ได้รับความนิยมจากสาธารณชนประมาณ 10 เท่าในขณะที่มันยังได้รับประสิทธิภาพบน PAR หรือดีกว่ารุ่นเหล่านี้
นอกจากนี้เรายังแนะนำ indicglue - ชุดของงานการประเมินมาตรฐานที่สามารถใช้ในการวัดประสิทธิภาพ NLU ของโมเดลภาษาเดียวและหลายภาษาในภาษาอินเดีย พร้อมกับ indicglue เรายังรวบรวมรายการงานประเมินเพิ่มเติม พื้นที่เก็บข้อมูลนี้มีรหัสสำหรับการทำงานการประเมินทั้งหมดเหล่านี้ในตัวบ่งชี้-เบิร์ตและโมเดลอื่น ๆ ที่คล้ายกับเบิร์ต
โมเดล INTIC BERT ขึ้นอยู่กับโมเดลอัลเบิร์ตซึ่งเป็นอนุพันธ์ของเบิร์ตล่าสุด มันได้รับการฝึกอบรมล่วงหน้าใน 12 ภาษาอินเดีย: อัสสัม, เบงกาลี, อังกฤษ, คุชราต, ภาษาฮินดี, กันนาดา, มาลายาลัม, มาราธี, โอริยา, ปัญจาบ, ทมิฬ, เตลูกู
วิธีที่ง่ายที่สุดในการใช้ Indic Bert คือผ่านห้องสมุด HuggingFace Transformers มันสามารถโหลดได้ง่ายๆเช่นนี้:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )หมายเหตุ: เพื่อรักษาสำเนียง (เสียงสระ Matras / Diacritics) ในขณะที่โทเค็น (อ่านปัญหานี้สำหรับรายละเอียดเพิ่มเติม #26) ใช้สิ่งนี้:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )รหัสสามารถเรียกใช้บน GPU, TPU หรือบนแพลตฟอร์ม colab ของ Google หากคุณต้องการเรียกใช้บน colab คุณสามารถใช้สมุดบันทึกการปรับแต่งของเราได้ สำหรับการรันใน VM ของคุณเองเริ่มต้นด้วยการรันคำสั่งต่อไปนี้:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt โดยค่าเริ่มต้นการติดตั้งจะใช้ GPU สำหรับการสนับสนุน TPU ให้อัปเดต .bashrc ของคุณก่อนด้วยตัวแปรต่อไปนี้:
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib " จากนั้นติดตั้ง pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-devเพื่อรับความช่วยเหลือเพียงแค่วิ่ง:
python3 -m fine_tune.cli --helpในการประเมินโมเดลเฉพาะที่มีพารามิเตอร์ไฮเปอร์เริ่มต้นดำเนินการ:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >สำหรับการใช้รหัสการปรับแต่งขั้นสูงให้อ้างอิงเอกสารนี้
เราได้รับการฝึกฝนล่วงหน้าจาก Indict-Bert ในคลังภาษาเดียวของ AI4BHARAT คลังข้อมูลมีการกระจายภาษาดังต่อไปนี้:
| ภาษา | เช่น | พันล้าน | en | กู | สวัสดี | KN | |
|---|---|---|---|---|---|---|---|
| จำนวนโทเค็น | 36.9m | 815m | 1.34b | 724m | 1.84B | 712m | |
| ภาษา | มล. | นาย | หรือ | PA | TA | เต่าทอง | ทั้งหมด |
| จำนวนโทเค็น | 767m | 560m | 104m | 814m | 549m | 671m | 8.9b |
Iglue เป็นมาตรฐานการทำความเข้าใจภาษาธรรมชาติสำหรับภาษาอินเดียที่เราเสนอ ในขณะที่สร้างเกณฑ์มาตรฐานนี้วัตถุประสงค์ของเราก็คือการครอบคลุมภาษาอินเดียส่วนใหญ่ทั้ง 11 ภาษาสำหรับแต่ละงาน ประกอบด้วยงานต่อไปนี้:
ทำนายประเภทของบทความข่าวที่กำหนด ชุดข้อมูลมีบทความข่าวประมาณ 125K ใน 9 ภาษาอินเดีย ตัวอย่าง:
ตัวอย่างบทความ :
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
หมวดหมู่ : การเมือง
รับรู้เอนทิตีและประเภทหยาบของพวกเขาในลำดับของคำ ชุดข้อมูลมีตัวอย่างประมาณ 787k ใน 11 ภาษาอินเดีย
ตัวอย่าง :
| โทเค็น | चाणक | पु | को | यहाँ | देखने | हेतु | यहाँ | क | क |
| พิมพ์ | B-LOC | I-loc | โอ | โอ | โอ | โอ | โอ | โอ | โอ |
ทำนายพาดหัวที่ถูกต้องสำหรับบทความข่าวจากรายการหัวข้อข่าวผู้สมัครสี่คนที่กำหนด ชุดข้อมูลมีตัวอย่างประมาณ 880k ใน 11 ภาษาอินเดีย ตัวอย่าง:
บทความข่าว:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
ผู้สมัคร 1 : ಇನ್ಫೋಸಿಸ್ [คำตอบที่ถูกต้อง] ผู้สมัคร 2: ಮಾನಸಿಕ ಮೇಲೆ ಕಳ್ಳಿಕಳ್ಳಿ ಭೀಕರ ಭೀಕರ ಭೀಕರ ಹಲ್ಲೆಹಲ್ಲೆಹಲ್ಲೆಬೆಂಗ್ರೆಯಲ್ಲಿಕಸಬಮುಸುಕುಧಾರಿಗಳಮುಸುಕುಧಾರಿಗಳಬೆಂಗ್ರೆಯಲ್ಲಿಮುಸುಕುಧಾರಿಗಳಬೆಂಗ್ರೆಯಲ್ಲಿಮುಸುಕುಧಾರಿಗಳ
ทำนายชื่อที่ถูกต้องสำหรับส่วน Wikipedia จากรายการชื่อผู้สมัครสี่คนที่กำหนด ชุดข้อมูลมีตัวอย่าง 400K ใน 11 ภาษาอินเดีย
ข้อความส่วน :
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
ผู้สมัคร 1: એકસ-મેન
ผู้สมัคร 2: કારકીર્દિ
ผู้สมัคร 3: નિર્માણ [ คำตอบที่ถูกต้อง ]
ผู้สมัคร 4: ઓસ્ટ્રેલિય
เมื่อได้รับข้อความที่มีการสวมหน้ากากแบบสุ่มแล้วภารกิจคือการทำนายว่าเอนทิตีที่สวมหน้ากากจากรายการของผู้สมัคร 4 หน่วย ชุดข้อมูลมีตัวอย่างประมาณ 239K ใน 11 ภาษา ตัวอย่าง:
ข้อความ
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।ผู้สมัคร 1 : ਬਰਤਾਨੀਆ [คำตอบที่ถูกต้อง] ผู้สมัคร 2 : ਭਾਰਤ ผู้สมัคร 3 : ਸ਼ਿਕਾਗੋ ผู้สมัคร 4 : ਪਾਕਿਸਤਾਨ
ได้รับประโยคภาษา
ประโยคอินพุต
In the health sector the nation has now moved ahead from the conventional approach.
ดึงคำแปลต่อไปนี้จากชุด 4886 ประโยค:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| งาน | Mbert | XLM-R | ตัวบ่งชี้ |
|---|---|---|---|
| บทความข่าวการทำนายหัวข้อข่าว | 89.58 | 95.52 | 95.87 |
| การทำนายชื่อเรื่อง Wikipedia | 73.66 | 66.33 | 73.31 |
| QA หลายตัวเลือกสไตล์ปิดบัง | 39.16 | 27.98 | 41.87 |
| การจำแนกประเภทบทความ | 90.63 | 97.03 | 97.34 |
| การจดจำเอนทิตีชื่อ (F1-Score) | 73.24 | 65.93 | 64.47 |
| งานดึงประโยคข้ามภาษา | 21.46 | 13.74 | 27.12 |
| เฉลี่ย | 64.62 | 61.09 | 66.66 |
| งาน | ประเภทงาน | Mbert | XLM-R | ตัวบ่งชี้ |
|---|---|---|---|---|
| การจำแนกข่าวบีบีซี | การจำแนกประเภท | 60.55 | 75.52 | 74.60 |
| บทวิจารณ์ผลิตภัณฑ์ IIT | การวิเคราะห์ความเชื่อมั่น | 74.57 | 78.97 | 71.32 |
| บทวิจารณ์ภาพยนตร์ IITP | analaysis ความรู้สึก | 56.77 | 61.61 | 59.03 |
| บทความข่าว Soham | การจำแนกประเภท | 80.23 | 87.6 | 78.45 |
| วาทกรรม Midas | การวิเคราะห์วาทกรรม | 71.20 | 79.94 | 78.44 |
| การจำแนกหัวข้อข่าว Inltk | การจำแนกประเภท | 87.95 | 93.38 | 94.52 |
| การวิเคราะห์ความเชื่อมั่นของ Actsa | การวิเคราะห์ความเชื่อมั่น | 48.53 | 59.33 | 61.18 |
| Winograd NLI | การอนุมานภาษาธรรมชาติ | 56.34 | 55.87 | 56.34 |
| ทางเลือกของทางเลือกที่น่าเชื่อถือ (COPA) | การอนุมานภาษาธรรมชาติ | 54.92 | 51.13 | 58.33 |
| Amrita การถอดความที่แน่นอน | การตรวจจับการถอดความ | 93.81 | 93.02 | 93.75 |
| Amrita Rough Rough Paraphrase | การตรวจจับการถอดความ | 83.38 | 82.20 | 84.33 |
| เฉลี่ย | 69.84 | 74.42 | 73.66 |
* หมายเหตุ: ทุกรุ่นถูก จำกัด ไว้ที่ MAX_SEQ_LENGTH ของ 128
รุ่นสามารถดาวน์โหลดได้ที่นี่ ทั้งจุดตรวจ TF และ Pytorch Binaries รวมอยู่ในที่เก็บถาวร หรือคุณสามารถดาวน์โหลดได้จาก HuggingFace
หากคุณใช้ทรัพยากรใด ๆ โปรดอ้างอิงบทความต่อไปนี้:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
เราอยากจะได้ยินจากคุณถ้า:
รหัส indicbert (และโมเดล) จะถูกเผยแพร่ภายใต้ใบอนุญาต MIT
งานนี้เป็นผลมาจากความพยายามของอาสาสมัครซึ่งเป็นส่วนหนึ่งของการริเริ่ม AI4BHARAT