Indicbert es la nueva y mejorada implementación de Bert que admite el ajuste fino con Huggingface. Aquí están disponibles todos los enlaces de descarga para indiccorpv2, indicxtreme y varios modelos indicbertv2.
Indic Bert es un modelo de Albert multilingüe que cubre exclusivamente 12 idiomas indios principales. Está previamente capacitado en nuestro nuevo corpus de alrededor de 9 mil millones de tokens y se evalúa en un conjunto de tareas diversas. Indic-Bert tiene alrededor de 10 veces menos parámetros que otros modelos multilingües disponibles públicamente disponibles, mientras que también logra una actuación a par o mejor que estos modelos.
También presentamos indicGlue, un conjunto de tareas de evaluación estándar que se pueden utilizar para medir el rendimiento de NLU de los modelos monolingües y multilingües en los idiomas indios. Junto con IndicGlue, también compilamos una lista de tareas de evaluación adicionales. Este repositorio contiene código para ejecutar todas estas tareas de evaluación en Indic-Bert y otros modelos tipo Bert.
El modelo IND BERT se basa en el modelo Albert, un derivado reciente de Bert. Está previamente capacitado en 12 idiomas indios: asamés, bengalí, inglés, gujarati, hindi, kannada, malayalam, marathi, oriya, punjabi, tamil, telugu.
La forma más fácil de usar Indic Bert es a través de la Biblioteca de Transformers Huggingface. Se puede cargar simplemente así:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )Nota: Para preservar los acentos (Matras / diacríticos de vocal) mientras la tokenización (lea este problema para obtener más detalles #26), use esto:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )El código se puede ejecutar en GPU, TPU o en la plataforma Colab de Google. Si desea ejecutarlo en Colab, simplemente puede usar nuestro cuaderno ajustado. Para ejecutarlo en su propia VM, comience con la ejecución de los siguientes comandos:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt Por defecto, la instalación usará GPU. Para el soporte de TPU, primero actualice su .bashrc con las siguientes variables:
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib " Luego, instale pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-devPara obtener ayuda, simplemente ejecute:
python3 -m fine_tune.cli --helpPara evaluar un modelo específico con hiper-parámetros predeterminados, ejecute:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >Para un uso más avanzado del código de ajuste, consulte este documento.
Prerquenamos indic-bert en el corpus monolingüe de Ai4bharat. El corpus tiene la siguiente distribución de idiomas:
| Idioma | como | bn | interno | Gu | Hola | Kn | |
|---|---|---|---|---|---|---|---|
| No. de tokens | 36.9m | 815m | 1.34b | 724m | 1.84b | 712m | |
| Idioma | ml | señor | o | Pensilvania | ejército de reserva | TE | todo |
| No. de tokens | 767m | 560m | 104m | 814m | 549m | 671m | 8.9b |
Iglue es un lenguaje natural que comprende el punto de referencia para los idiomas indios que proponemos. Al construir este punto de referencia, nuestro objetivo también era cubrir la mayoría de los 11 idiomas indios para cada tarea. Consiste en las siguientes tareas:
Predecir el género de un artículo de noticias determinado. El conjunto de datos contiene alrededor de 125k artículos de noticias en 9 idiomas indios. Ejemplo:
Fragmento de artículo :
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
Categoría : política
Reconocer entidades y sus tipos gruesos en una secuencia de palabras. El conjunto de datos contiene alrededor de 787k ejemplos en 11 idiomas indios.
Ejemplo :
| Simbólico | चाणक्य | पुरी | को | यहाँ | देखने | हेतु | यहाँ | क्लिक | करें |
| Tipo | BLOQUE POLÍTICO | I-Loc | O | O | O | O | O | O | O |
Predecir el titular correcto para un artículo de noticias de una lista determinada de cuatro titulares de candidatos. El conjunto de datos contiene alrededor de 880k ejemplos en 11 idiomas indios. Ejemplo:
Artículo de noticias:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
Candidato 1 : ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯ ಬರ್ಬರ ಹತ್ಯೆ [Respuesta correcta] Candidato 2: ಮಾನಸಿಕ ಅಸ್ವಸ್ಥೆ ಮೇಲೆ ಮಕ್ಕಳ ಕಳ್ಳಿ ಎಂದು ಭೀಕರ ಹಲ್ಲೆ Candidato 3: ಕಸಬ ಬೆಂಗ್ರೆಯಲ್ಲಿ ಮುಸುಕುಧಾರಿಗಳ ಮೂವರು ಮೂವರು ಯುವಕರ ಮೇಲೆ: ಓರ್ವ ಗಂಭೀರ ಗಂಭೀರ Candidato 4: ಕಣಿವೆ ಕಣಿವೆ ರಾಜ್ಯದಲ್ಲಿ móvil ಬಂದ್, ಪ್ರಿಂಟಿಂಗ್ ಮೇಲೆ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ದಾಳಿ ಮೇಲೆ ದಾಳಿ ದಾಳಿ ದಾಳಿ ಮೇಲೆ ದಾಳಿ ಮೇಲೆ ದಾಳಿ ದಾಳಿ ದಾಳಿ ಮೇಲೆ
Predecir el título correcto para una sección de Wikipedia de una lista dada de cuatro títulos de candidatos. El conjunto de datos tiene 400k ejemplos en 11 idiomas indios.
Texto de la sección :
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
Candidato 1: એકસ-મેન
Candidato 2: કારકીર્દિ
Candidato 3: નિર્માણ કંપન [ Respuesta correcta ]
Candidato 4: ઓસ્ટ્રેલિય
Dado un texto con una entidad enmascarada al azar, la tarea es predecir que la entidad enmascarada de una lista de 4 entidades candidatas. El conjunto de datos contiene alrededor de 239k ejemplos en 11 idiomas. Ejemplo:
Texto
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।Candidato 1 : ਬਰਤਾਨੀਆ [Respuesta correcta] Candidato 2 : ਭਾਰਤ Candidato 3 : ਸ਼ਿਕਾਗੋ Candidato 4 : ਪਾਕਿਸਤਾਨ
Dada una oración en el lenguaje
Oración de entrada
In the health sector the nation has now moved ahead from the conventional approach.
Recupere la siguiente traducción de un conjunto de 4886 oraciones:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| Tarea | mbert | XLM-R | Indicbert |
|---|---|---|---|
| Predicción del título del artículo de noticias | 89.58 | 95.52 | 95.87 |
| Predicción del título de la sección Wikipedia | 73.66 | 66.33 | 73.31 |
| QA de opción múltiple de estilo Cloze | 39.16 | 27.98 | 41.87 |
| Clasificación de género del artículo | 90.63 | 97.03 | 97.34 |
| Reconocimiento de entidad nombrado (puntaje F1) | 73.24 | 65.93 | 64.47 |
| Tarea de recuperación de oraciones interlingües | 21.46 | 13.74 | 27.12 |
| Promedio | 64.62 | 61.09 | 66.66 |
| Tarea | Tipo de tarea | mbert | XLM-R | Indicbert |
|---|---|---|---|---|
| Clasificación de noticias de la BBC | Clasificación de género | 60.55 | 75.52 | 74.60 |
| Reseñas de productos IIT | Análisis de sentimientos | 74.57 | 78.97 | 71.32 |
| Reseñas de películas de IITP | Sentimiento Analaysis | 56.77 | 61.61 | 59.03 |
| Artículo de Soham News | Clasificación de género | 80.23 | 87.6 | 78.45 |
| Discurso de Midas | Análisis del discurso | 71.20 | 79.94 | 78.44 |
| Clasificación de titulares de INLTK | Clasificación de género | 87.95 | 93.38 | 94.52 |
| Análisis de sentimientos de ACTSA | Análisis de sentimientos | 48.53 | 59.33 | 61.18 |
| Winograd NLI | Inferencia del lenguaje natural | 56.34 | 55.87 | 56.34 |
| Elección de alternativa plausible (COPA) | Inferencia del lenguaje natural | 54.92 | 51.13 | 58.33 |
| AMRITA EXACTA PARAFRASE | Detección de parafraseo | 93.81 | 93.02 | 93.75 |
| Paráfrasis rugosa de Amrita | Detección de parafraseo | 83.38 | 82.20 | 84.33 |
| Promedio | 69.84 | 74.42 | 73.66 |
* Nota: Todos los modelos han sido restringidos a una longitud MAX_SEQ_LIGH de 128.
El modelo se puede descargar aquí. Tanto los puntos de control de TF como los binarios de Pytorch se incluyen en el archivo. Alternativamente, también puede descargarlo desde Huggingface.
Si está utilizando alguno de los recursos, cite el siguiente artículo:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
Nos gustaría saber de usted si:
El código indicbert (y los modelos) se lanzan bajo la licencia MIT.
Este trabajo es el resultado de un esfuerzo voluntario como parte de la iniciativa Ai4bharat.