IndeCBert는 Huggingface와 함께 미세 조정을 지원하는 Bert의 새롭고 개선 된 구현입니다. indiccorpv2, indicxtreme 및 다양한 indicbertv2 모델에 대한 모든 다운로드 링크가 여기에서 제공됩니다.
Indic Bert는 12 개의 주요 인도 언어를 독점적으로 포괄하는 다국어 Albert 모델입니다. 그것은 약 90 억 개의 토큰의 새로운 코퍼스에서 미리 훈련되며 다양한 작업에 대해 평가됩니다. Indic-Bert는 공개적으로 사용 가능한 다른 다국어 모델보다 약 10 배 적은 매개 변수를 가지고 있으며,이 모델보다 성능을 얻거나 더 나은 성능을 달성합니다.
또한 인도 언어에 대한 단층 및 다국어 모델의 NLU 성능을 측정하는 데 사용할 수있는 일련의 표준 평가 작업 인 Indicglue를 소개합니다. Indicglue와 함께 추가 평가 작업 목록도 작성합니다. 이 저장소에는 Indic-Bert 및 기타 Bert와 같은 모델에서 이러한 모든 평가 작업을 실행하기위한 코드가 포함되어 있습니다.
Indic Bert 모델은 최근 Bert의 미분 인 Albert 모델을 기반으로합니다. 아사 메스, 벵골어, 영어, 구자라트티, 힌디어, 칸나다어, 말라 얄 람어, 마라 티어, 오리 야, 펀 자브, 타밀어, 텔루구 어와 같은 12 개의 인도 언어로 미리 훈련됩니다.
Indic Bert를 사용하는 가장 쉬운 방법은 Huggingface Transformers 라이브러리를 통하는 것입니다. 다음과 같이 간단히로드 할 수 있습니다.
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )참고 : 토큰 화 (자세한 내용은이 문제를 읽으려면이 문제를 읽으려면 악센트) (모음 마트라 / 디아크리닉)를 보존하려면 다음을 사용하십시오.
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )코드는 GPU, TPU 또는 Google Colab 플랫폼에서 실행할 수 있습니다. Colab에서 실행하려면 미세 조정 노트북을 사용할 수 있습니다. 자신의 VM에서 실행하려면 다음 명령을 실행하는 것으로 시작하십시오.
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt 기본적으로 설치는 GPU를 사용합니다. TPU 지원의 경우 먼저 다음 변수로 .bashrc 업데이트하십시오.
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib " 그런 다음 pytorch-xla 설치하십시오.
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-dev도움을 받으려면 단순히 실행하십시오.
python3 -m fine_tune.cli --help기본 하이퍼 파라미터로 특정 모델을 평가하려면 실행하십시오.
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >미세 조정 코드를보다 고급 사용하려면이 문서를 참조하십시오.
우리는 ai4bharat의 단일 언어 코퍼스에서 Indic-bert를 미리 훈련시켰다. 코퍼스에는 다음과 같은 언어 배포가 있습니다.
| 언어 | ~처럼 | Bn | en | 구 | 안녕 | kn | |
|---|---|---|---|---|---|---|---|
| 토큰 수 | 36.9m | 815m | 1.34b | 724m | 1.84b | 712m | |
| 언어 | ML | ~ 씨 | 또는 | 아빠 | 고마워 | 테 | 모두 |
| 토큰 수 | 767m | 560m | 104m | 814m | 549m | 671m | 8.9b |
Iglue는 우리가 제안하는 인도 언어에 대한 자연어 이해 벤치 마크입니다. 이 벤치 마크를 구축하는 동안 우리의 목표는 각 작업마다 11 개의 인도 언어 대부분을 다루는 것이 었습니다. 다음과 같은 작업으로 구성됩니다.
주어진 뉴스 기사의 장르를 예측하십시오. 이 데이터 세트에는 9 개의 인도 언어에 걸쳐 약 125k 뉴스 기사가 포함되어 있습니다. 예:
기사 스 니펫 :
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
카테고리 : 정치
일련의 단어로 실체와 그들의 거친 유형을 인식하십시오. 이 데이터 세트에는 11 개의 인도 언어에 걸쳐 약 787k 예제가 포함되어 있습니다.
예 :
| 토큰 | च 접한 | पु십시오 | को | यह 접한 | देखने | हेतु | यह 접한 | क십시오 | क십시오 |
| 유형 | 블록 | i-loc | 영형 | 영형 | 영형 | 영형 | 영형 | 영형 | 영형 |
주어진 4 개의 후보 헤드 라인 목록에서 뉴스 기사의 올바른 헤드 라인을 예측하십시오. 이 데이터 세트에는 11 개의 인도 언어에 걸쳐 약 880k 예제가 포함되어 있습니다. 예:
뉴스 기사 :
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
후보자 1 : ಇನ್ಫೋಸಿಸ್ 1 ಮಹಿಳಾ ಟೆಕ್ಕಿಯ ಬರ್ಬರ [정답] 후보자 2 : ಮಾನಸಿಕ ಅಸ್ವಸ್ಥೆ ಅಸ್ವಸ್ಥೆ ಮೇಲೆ ಮಕ್ಕಳ ಮಕ್ಕಳ ಕಳ್ಳಿ ಎಂದು ಭೀಕರ ಹಲ್ಲೆ 후보자 3 : ಕಸಬ ಬೆಂಗ್ರೆಯಲ್ಲಿ ಬೆಂಗ್ರೆಯಲ್ಲಿ ಮುಸುಕುಧಾರಿಗಳ ಮುಸುಕುಧಾರಿಗಳ ತಂಡದಿಂದ ಮೂವರು ಮೂವರು ಮೇಲೆ ಹಲ್ಲೆ ಹಲ್ಲೆ : ಗಂಭೀರ 후보자 4 : ಕಣಿವೆ 모바일 ಬಂದ್, ಪ್ರಿಂಟಿಂಗ್ ಪ್ರೆಸ್ ಮೇಲೆ ಮೇಲೆ ದಾಳಿ
주어진 4 개의 후보 제목 목록에서 Wikipedia 섹션의 올바른 제목을 예측하십시오. 데이터 세트에는 11 개의 인도 언어에 400k 예제가 있습니다.
섹션 텍스트 :
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
후보자 1 : એકસ-1
후보 2 : કારકીર્દિ
후보 3 : નિર્માણ 3 [ 정답 ]
후보 4 : ઓસ્ટ્રેલિય
임의로 마스킹 된 엔티티가있는 텍스트가 주어지면,이 과제는 4 개의 후보 엔티티 목록에서 마스크 된 엔티티를 예측하는 것입니다. 데이터 세트에는 11 개 언어에 걸쳐 약 239k 예제가 포함되어 있습니다. 예:
텍스트
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।후보 1 : ਬਰਤਾਨੀਆ [정답] 후보 2 : ਭਾਰਤ 후보 3 : ਸ਼ਿਕਾਗੋ 후보 4 : ਪਾਕਿਸਤਾਨ
언어로 문장이 주어졌습니다
입력 문장
In the health sector the nation has now moved ahead from the conventional approach.
4886 문장 세트에서 다음 번역을 검색하십시오.
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| 일 | Mbert | XLM-R | 인디버트 |
|---|---|---|---|
| 뉴스 기사 헤드 라인 예측 | 89.58 | 95.52 | 95.87 |
| Wikipedia 섹션 제목 예측 | 73.66 | 66.33 | 73.31 |
| 클로즈 스타일의 객관식 QA | 39.16 | 27.98 | 41.87 |
| 기사 장르 분류 | 90.63 | 97.03 | 97.34 |
| 명명 된 엔티티 인식 (F1- 점수) | 73.24 | 65.93 | 64.47 |
| 교차 문장 검색 과제 | 21.46 | 13.74 | 27.12 |
| 평균 | 64.62 | 61.09 | 66.66 |
| 일 | 작업 유형 | Mbert | XLM-R | 인디버트 |
|---|---|---|---|---|
| BBC 뉴스 분류 | 장르 분류 | 60.55 | 75.52 | 74.60 |
| IIT 제품 리뷰 | 감정 분석 | 74.57 | 78.97 | 71.32 |
| IITP 영화 리뷰 | 감정 analaysis | 56.77 | 61.61 | 59.03 |
| Soham 뉴스 기사 | 장르 분류 | 80.23 | 87.6 | 78.45 |
| 미다스 담론 | 담론 분석 | 71.20 | 79.94 | 78.44 |
| INLTK 헤드 라인 분류 | 장르 분류 | 87.95 | 93.38 | 94.52 |
| ACTSA 감정 분석 | 감정 분석 | 48.53 | 59.33 | 61.18 |
| Winograd NLI | 자연어 추론 | 56.34 | 55.87 | 56.34 |
| 그럴듯한 대안의 선택 (COPA) | 자연어 추론 | 54.92 | 51.13 | 58.33 |
| Amrita 정확한 역설 | 역설 탐지 | 93.81 | 93.02 | 93.75 |
| 암리타 거친 역설 | 역설 탐지 | 83.38 | 82.20 | 84.33 |
| 평균 | 69.84 | 74.42 | 73.66 |
* 참고 : 모든 모델은 128의 Max_Seq_length로 제한되었습니다.
모델은 여기에서 다운로드 할 수 있습니다. TF 체크 포인트와 Pytorch Binaries는 아카이브에 포함되어 있습니다. 또는 Huggingface에서 다운로드 할 수도 있습니다.
리소스를 사용하는 경우 다음 기사를 인용하십시오.
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
다음과 같은 경우 귀하의 의견을 듣고 싶습니다.
IndeCbert 코드 (및 모델)는 MIT 라이센스에 따라 릴리스됩니다.
이 작업은 AI4Bharat 이니셔티브의 일환으로 자원 봉사 노력의 결과입니다.