Indicbert é a implementação nova e aprimorada do Bert que apoia o ajuste fino com o HuggingFace. Todos os links de download para modelos IndicCorpv2, Indicxtreme e vários indicbertv2 estão disponíveis aqui.
O Indic Bert é um modelo multilíngue de Albert que abrange exclusivamente 12 principais idiomas indianos. É pré-treinado em nosso romance corpus de cerca de 9 bilhões de tokens e avaliado em um conjunto de tarefas diversas. O Indic-Bert possui cerca de 10x menos parâmetros do que outros modelos multilíngues populares disponíveis, enquanto também atinge um desempenho no par ou melhor que esses modelos.
Também introduzimos o IndicGlue - um conjunto de tarefas de avaliação padrão que podem ser usadas para medir o desempenho da NLU de modelos monolíngues e multilíngues em idiomas indianos. Juntamente com o IndicGlue, também compilamos uma lista de tarefas de avaliação adicionais. Este repositório contém código para executar todas essas tarefas de avaliação nos modelos Indic-Bert e outros modelos do tipo Bert.
O modelo Indic Bert é baseado no modelo Albert, um derivado recente de Bert. É pré-treinado em 12 idiomas indianos: Assamês, Bengali, Inglês, Gujarati, Hindi, Kannada, Malayalam, Marathi, Oriya, Punjabi, Tamil, Telugu.
A maneira mais fácil de usar o Indic Bert é através da Biblioteca de Transformers do Huggingface. Pode ser simplesmente carregado assim:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )Nota: Para preservar os acentos (matras / diacríticos de vogal) durante a tokenização (leia este problema para obter mais detalhes nº 26), use o seguinte:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )O código pode ser executado na GPU, TPU ou na plataforma colab do Google. Se você deseja executá-lo no COLAB, basta usar o nosso caderno de ajuste fino. Para executá -lo em sua própria VM, comece com a execução dos seguintes comandos:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt Por padrão, a instalação usará a GPU. Para suporte à TPU, primeiro atualize seu .bashrc com as seguintes variáveis:
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib " Em seguida, instale pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-devPara obter ajuda, basta correr:
python3 -m fine_tune.cli --helpPara avaliar um modelo específico com hiper-parâmetros padrão, execute:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >Para um uso mais avançado do código de ajuste fino, consulte este documento.
Nós pré-treinados de Indic-Bert no corpus monolíngue de Ai4bharat. O corpus tem a seguinte distribuição de idiomas:
| Linguagem | como | Bn | en | Gu | oi | KN | |
|---|---|---|---|---|---|---|---|
| No. de tokens | 36,9m | 815m | 1.34b | 724m | 1.84b | 712m | |
| Linguagem | ml | senhor | ou | PA | ta | te | todos |
| No. de tokens | 767m | 560m | 104m | 814m | 549m | 671m | 8.9b |
A iglue é uma referência natural para entender a linguagem para as línguas indianas que propomos. Ao construir esse benchmark, nosso objetivo também era cobrir a maioria dos 11 idiomas indianos para cada tarefa. Consiste nas seguintes tarefas:
Preveja o gênero de um determinado artigo de notícias. O conjunto de dados contém cerca de 125 mil artigos de notícias em 9 idiomas indianos. Exemplo:
Artigo Snippet :
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
Categoria : Política
Reconhecer entidades e seus tipos grossos em uma sequência de palavras. O conjunto de dados contém cerca de 787 mil exemplos em 11 idiomas indianos.
Exemplo :
| Token | चाणक्य | पुरी | को | यहाँ | देखने | हेतु | यहाँ | क्लिक | करें |
| Tipo | BLOCO | I-Loc | O | O | O | O | O | O | O |
Preveja a manchete correta para um artigo de notícias de uma determinada lista de quatro manchetes do candidato. O conjunto de dados contém cerca de 880 mil exemplos em 11 idiomas indianos. Exemplo:
Artigo de notícias:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
Candidato 1 : ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯ ಬರ್ಬರ ಹತ್ಯೆ [Resposta correta] Candidato 2: ಮಾನಸಿಕ ಅಸ್ವಸ್ಥೆ ಮೇಲೆ ಕಳ್ಳಿ ಕಳ್ಳಿ ಎಂದು ಭೀಕರ ಹಲ್ಲೆ candidato 3: ಕಸಬ ಬೆಂಗ್ರೆಯಲ್ಲಿ ಮುಸುಕುಧಾರಿಗಳ ತಂಡದಿಂದ ಮೂವರು ಯುವಕರ ಮೇಲೆ ಹಲ್ಲೆ: ಓರ್ವ ಗಂಭೀರ candidato 4: ಕಣಿವೆ Mobile ಬಂದ್, ಪ್ರಿಂಟಿಂಗ್ ಪ್ರೆಸ್ ಮೇಲೆ ದಾಳಿ ದಾಳಿ
Preveja o título correto para uma seção da Wikipedia de uma determinada lista de quatro títulos de candidatos. O conjunto de dados tem 400 mil exemplos em 11 idiomas indianos.
Texto da seção :
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
Candidato 1: એકસ-મેન
Candidato 2: કારકીર્દિ
Candidato 3: નિર્માણ કંપન [ Resposta correta ]
Candidato 4: ઓસ્ટ્રેલિય
Dado um texto com uma entidade mascarada aleatoriamente, a tarefa é prever que a entidade mascarada de uma lista de 4 entidades candidatas. O conjunto de dados contém cerca de 239 mil exemplos em 11 idiomas. Exemplo:
Texto
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।Candidato 1 : ਬਰਤਾਨੀਆ [Resposta correta] Candidato 2 : ਭਾਰਤ Candidato 3 : ਸ਼ਿਕਾਗੋ Candidato 4 : ਪਾਕਿਸਤਾਨ
Dada uma frase na linguagem
Sentença de entrada
In the health sector the nation has now moved ahead from the conventional approach.
Recupere a seguinte tradução de um conjunto de 4886 frases:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| Tarefa | Mbert | Xlm-r | Indicbert |
|---|---|---|---|
| Previsão de manchetes do artigo de notícias | 89.58 | 95.52 | 95.87 |
| Previsão do título da seção da Wikipedia | 73.66 | 66.33 | 73.31 |
| QA de múltipla escolha ao estilo de cloze | 39.16 | 27.98 | 41.87 |
| Artigo Classificação de gênero | 90.63 | 97.03 | 97.34 |
| Nomeado Reconhecimento de entidades (F1-Score) | 73.24 | 65.93 | 64.47 |
| Tarefa de recuperação de sentenças transversal | 21.46 | 13.74 | 27.12 |
| Média | 64.62 | 61.09 | 66.66 |
| Tarefa | Tipo de tarefa | Mbert | Xlm-r | Indicbert |
|---|---|---|---|---|
| Classificação de notícias da BBC | Classificação de gênero | 60.55 | 75.52 | 74.60 |
| IIT Revisões de produtos | Análise de sentimentos | 74.57 | 78.97 | 71.32 |
| Resenhas de filmes do IITP | Analaysis de sentimentos | 56.77 | 61.61 | 59.03 |
| Artigo de notícias de Soham | Classificação de gênero | 80.23 | 87.6 | 78.45 |
| Discurso de midas | Análise do discurso | 71.20 | 79.94 | 78.44 |
| Classificação das manchetes do INLTK | Classificação de gênero | 87,95 | 93.38 | 94.52 |
| Análise de sentimentos Atos | Análise de sentimentos | 48.53 | 59.33 | 61.18 |
| Winograd NLI | Inferência de linguagem natural | 56.34 | 55.87 | 56.34 |
| Escolha de alternativa plausível (COPA) | Inferência de linguagem natural | 54.92 | 51.13 | 58.33 |
| Paráfrase exata da amrita | Detecção de parafrase | 93.81 | 93.02 | 93.75 |
| Paráfrase aproximada de Amrita | Detecção de parafrase | 83.38 | 82.20 | 84.33 |
| Média | 69.84 | 74.42 | 73.66 |
* Nota: Todos os modelos foram restritos a um max_seq_length de 128.
O modelo pode ser baixado aqui. Os postos de verificação TF e os binários de Pytorch estão incluídos no arquivo. Como alternativa, você também pode baixá -lo do HuggingFace.
Se você estiver usando algum dos recursos, cite o seguinte artigo:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
Gostaríamos de ouvir de você se:
O código indicbert (e os modelos) são liberados sob a licença do MIT.
Este trabalho é o resultado de um esforço voluntário como parte da iniciativa AI4Bharat.