Indicbert-это новая и улучшенная реализация BERT, поддерживающего точную настройку с HuggingFace. Все ссылки для загрузки для Indiccorpv2, Indicxtreme и различных моделей IndicberTv2 доступны здесь.
Inde Bert - это многоязычная модель Альберта, которая охватывает исключительно 12 основных индийских языков. Он предварительно обучен нашему роману около 9 миллиардов токенов и оценивается по набору разнообразных задач. IND-BERT имеет примерно в 10 раз меньше параметров, чем другие популярные общедоступные многоязычные модели, в то время как он также достигает производительности в течение того, или лучше, чем эти модели.
Мы также вводим IndicGlue - набор стандартных задач оценки, которые можно использовать для измерения производительности NLU одноязычных и многоязычных моделей на индийских языках. Наряду с IndicGlue мы также составляем список дополнительных задач оценки. Этот репозиторий содержит код для выполнения всех этих задач оценки на моделях Inde-Bert и других моделей, похожих на BERT.
Модель Inde Bert основана на модели Albert, недавней производной BERT. Он предварительно обучен на 12 индийских языках: ассамский, бенгальский, английский, гуджарати, хинди, каннада, малаялам, маратхи, ария, пенджаби, тамильский, телугу.
Самый простой способ использования Indic Bert - это библиотека Transformers Transformers. Это может быть просто загружена так:
# pip3 install transformers
# pip3 install sentencepiece
from transformers import AutoModel , AutoTokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' )
model = AutoModel . from_pretrained ( 'ai4bharat/indic-bert' )ПРИМЕЧАНИЕ. Чтобы сохранить акценты (гласные матры / диаклитику). В то время как токенизация (прочитайте этот вопрос для получения более подробной информации № 26), используйте это:
tokenizer = transformers . AutoTokenizer . from_pretrained ( 'ai4bharat/indic-bert' , keep_accents = True )Код может быть запущен на GPU, TPU или на платформе Google Colab. Если вы хотите запустить его на Colab, вы можете просто использовать нашу точную ноутбук. Для запуска его в своей собственной виртуальной машине начните с запуска следующих команд:
git clone https://github.com/AI4Bharat/indic-bert
cd indic-bert
sudo pip3 install -r requirements.txt По умолчанию установка будет использовать GPU. Для поддержки TPU сначала обновите свой .bashrc со следующими переменными:
export PYTHONPATH= " ${PYTHONPATH} :/usr/share/tpu/models:<path to this repo "
export PYTHONIOENCODING=utf-8
export TPU_IP_ADDRESS= " <TPU Internal Address "
export TPU_NAME= " grpc:// $TPU_IP_ADDRESS :8470 "
export XRT_TPU_CONFIG= " tpu_worker;0; $TPU_IP_ADDRESS :8470 "
export LD_LIBRARY_PATH= " /usr/local/lib " Затем установите pytorch-xla :
curl https://raw.githubusercontent.com/pytorch/xla/master/contrib/scripts/env-setup.py -o pytorch-xla-env-setup.py
sudo python3 pytorch-xla-env-setup.py --version nightly --apt-packages libomp5 libopenblas-devЧтобы получить помощь, просто беги:
python3 -m fine_tune.cli --helpЧтобы оценить конкретную модель с гиперпараметрами по умолчанию, выполните:
python3 -m fine_tune.cli --model < model name > --dataset < dataset name > --lang < iso lang code > --iglue_dir < base path to indic glue dir > --output_dir < output dir >Для более продвинутого использования кода точной настройки обратитесь к этому документу.
Мы предварительно обучили Indic-Bert на одноязычном корпусе AI4Bharat. Корпус имеет следующее распределение языков:
| Язык | как | мгновенный | поступка | гуля | привет | кН | |
|---|---|---|---|---|---|---|---|
| Количество жетонов | 36,9 м | 815m | 1,34b | 724 м | 1,84b | 712M | |
| Язык | мл | Мистер | или | а | ТА | театр | все |
| Количество жетонов | 767 м | 560 м | 104 м | 814M | 549 м | 671 м | 8,9B |
Iglue - это контрольный эталон, понимающий естественный язык для индийских языков, который мы предлагаем. Строив этот эталон, наша цель была также охватить большинство из 11 индийских языков для каждой задачи. Он состоит из следующих задач:
Прогнозируйте жанр данной новостной статьи. Набор данных содержит около 125 тыс. Новостных статей на 9 индийских языках. Пример:
Статья фрагмента :
கர்நாடக சட்டப் பேரவையில் வெற்றி பெற்ற எம்எல்ஏக்கள் இன்று பதவியேற்றுக் கொண்ட நிலையில் , காங்கிரஸ் எம்எல்ஏ ஆனந்த் சிங் க்கள் ஆப்சென்ட் ஆகி அதிர்ச்சியை ஏற்படுத்தியுள்ளார் . உச்சநீதிமன்ற உத்தரவுப்படி இன்று மாலை முதலமைச்சர் எடியூரப்பா இன்று நம்பிக்கை வாக்கெடுப்பு நடத்தி பெரும்பான்மையை நிரூபிக்க உச்சநீதிமன்றம் உத்தரவிட்டது .
Категория : политика
Признайте сущности и их грубые типы в последовательности слов. Набор данных содержит около 787 тыс. Примеров на 11 индийских языках.
Пример :
| Токен | चाणक्य | पुरी | को | यहाँ | देखने | हेतु | यहाँ | क्लिक | करें |
| Тип | B-Loc | I-loc | О | О | О | О | О | О | О |
Прогнозируйте правильный заголовок новостной статьи из данного списка из четырех заголовков кандидатов. Набор данных содержит около 880 тыс. Примеров на 11 индийских языках. Пример:
Новостная статья:
ರಾಷ್ಟ್ರೀಯnಪುಣೆ: 23 ವರ್ಷದ ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯೊಬ್ಬರನ್ನು ನಡು ರಸ್ತೆಯಲ್ಲಿಯೇ ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಬರ್ಬರವಾಗಿ ಹತ್ಯೆ ಮಾಡಿರುವ ಘಟನೆ ಪುಣೆಯಲ್ಲಿ ಶನಿವಾರ ರಾತ್ರಿ ನಡೆದಿದೆ.nಅಂತರ ದಾಸ್ ಕೊಲೆಯಾದ ಮಹಿಳಾ ಟೆಕ್ಕಿಯಾಗಿದ್ದಾರೆ. ಅಂತರಾ ಅವರು ಪಶ್ಚಿಮ ಬಂಗಾಳದ ಮೂಲದವರಾಗಿದ್ದಾರೆ. ಕಳೆದ ರಾತ್ರಿ 8.00 ಗಂಟೆ ಸುಮಾರಿಗೆ ಕೆಲಸ ಮುಗಿಸಿ ಮನೆಗೆ ತೆರಳುತ್ತಿದ್ದ ಸಂದರ್ಭದಲ್ಲಿ ಅಂತರಾ ಅವರ ಮೇಲೆ ದಾಳಿ ಮಾಡಿರುವ ದುಷ್ಕರ್ಮಿಗಳು ಮಾರಾಕಾಸ್ತ್ರಗಳಿಂದ ಹಲ್ಲೆ ನಡೆಸಿದ್ದಾರೆಂದು ಪೊಲೀಸರು ಹೇಳಿದ್ದಾರೆ.nದಾಳಿ ನಡೆಸಿದ ನಂತರ ರಕ್ತದ ಮಡುವಿನಲ್ಲಿ ಬಿದ್ದು ಒದ್ದಾಡುತ್ತಿದ್ದ ಅಂತರಾ ಅವರನ್ನು ಸ್ಥಳೀಯರು ಆಸ್ಪತ್ರೆಗೆ ದಾಳಸಿದ್ದಾರೆ. ಆದರೆ, ಆಸ್ಪತ್ರೆಗೆ ದಾಖಲಿಸುವಷ್ಟರಲ್ಲಿ ಅಂತರಾ ಅವರು ಸಾವನ್ನಪ್ಪಿದ್ದಾರೆಂದು ಅವರು ಹೇಳಿದ್ದಾರೆ.nಪ್ರಕರಣ ದಾಖಲಿಸಿಕೊಂಡಿರುವ ಪೊಲೀಸರು ತನಿಖೆ ಆರಂಭಿಸಿದ್ದಾರೆ",
Кандидат 1 : ಇನ್ಫೋಸಿಸ್ ಮಹಿಳಾ ಟೆಕ್ಕಿಯ ಬರ್ಬರ ಹತ್ಯೆ [Правильный ответ] Кандидат 2: ಮಾನಸಿಕ ಮೇಲೆ ಮಕ್ಕಳ ಕಳ್ಳಿ ಎಂದು ಭೀಕರ ಹಲ್ಲೆ Кандидат 3: ಕಸಬ ಬೆಂಗ್ರೆಯಲ್ಲಿ ತಂಡದಿಂದ ಮೂವರು ಯುವಕರ ಮೇಲೆ ಹಲ್ಲೆ: ಓರ್ವ ಗಂಭೀರ Кандидат 4: ಕಣಿವೆ Мобильный
Прогнозируйте правильный заголовок для раздела Википедии из данного списка из четырех названий кандидатов. Набор данных имеет 400 тыс. Примеров на 11 индийских языках.
В разделе текст :
2005માં, જેકમેન નિર્માણ કંપની, સીડ પ્રોડકશન્સ ઊભી કરવા તેના લાંબાસમયના મદદનીશ જહોન પાલેર્મો સાથે જોડાયા, જેમનો પ્રથમ પ્રોજેકટ 2007માં વિવા લાફલિન હતો. જેકમેનની અભિનેત્રી પત્ની ડેબોરા-લી ફર્નેસ પણ કંપનીમાં જોડાઈ, અને પાલેર્મોએ પોતાના, ફર્નેસ અને જેકમેન માટે “ યુનિટી ” અર્થવાળા લખાણની આ ત્રણ વીંટીઓ બનાવી.[૨૭] ત્રણેયના સહયોગ અંગે જેકમેને જણાવ્યું કે “ મારી જિંદગીમાં જેમની સાથે મેં કામ કર્યું તે ભાગીદારો અંગે ડેબ અને જહોન પાલેર્મો અંગે હું ખૂબ નસીબદાર છું. ખરેખર તેથી કામ થયું. અમારી પાસે જુદું જુદું સાર્મથ્ય હતું. હું તે પસંદ કરતો હતો. I love it. તે ખૂબ ઉત્તેજક છે. ”[૨૮]ફોકસ આધારિત સીડ લેબલ, આમન્ડા સ્કિવેઈટઝર, કેથરિન ટેમ્બલિન, એલન મંડેલબમ અને જોય મરિનો તેમજ સાથે સિડની આધારિત નિર્માણ કચેરીનું સંચાલન કરનાર અલાના ફ્રીનો સમાવેશ થતાં કદમાં વિસ્તૃત બની. આ કંપીનોનો ઉદ્દેશ જેકમેનના વતનના દેશની સ્થાનિક પ્રતિભાને કામે લેવા મધ્યમ બજેટવાળી ફિલ્મો બનાવવાનો છે.
Кандидат 1: એકસ-મેન
Кандидат 2: કારકીર્દિ
Кандидат 3: નિર્માણ કંપન [ Правильный ответ ]
Кандидат 4: ઓસ્ટ્રેલિય
Учитывая текст с предметом, случайным образом замаскированным, задача состоит в том, чтобы предсказать, что сущность замаскирует из списка из 4 кандидатов. Набор данных содержит около 239 тыс. Примеров на 11 языках. Пример:
Текст
ਹੋਮੀ ਭਾਬਾ ਦਾ ਜਨਮ 1949 ਈ ਨੂਂ ਮੁੰਬਈ ਵਿੱਚ ਪਾਰਸੀ ਪਰਿਵਾਰ ਵਿੱਚ ਹੋਇਆ । ਸੇਂਟ ਮੇਰੀ ਤੋਂ ਮੁਢਲੀ ਸਿਖਿਆ ਪ੍ਰਾਪਤ ਕਰਕੇ ਉਹ ਬੰਬੇ ਯੂਨੀਵਰਸਿਟੀ ਗ੍ਰੈਜੁਏਸ਼ਨ ਲਈ ਚਲਾ ਗਿਆ । ਇਸ ਤੋਂ ਬਾਅਦ ਉਹ ਉਚੇਰੀ ਸਿਖਿਆ ਲਈ <MASK> ਚਲਾ ਗਿਆ । ਉਸਨੇ ਓਥੇ ਆਕਸਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਤੋਂ ਐਮ.ਏ ਅਤੇ ਐਮ ਫਿਲ ਦੀਆਂ ਡਿਗਰੀਆਂ ਪ੍ਰਾਪਤ ਕੀਤੀਆਂ । ਤਕਰੀਬਨ ਦਸ ਸਾਲ ਤਕ ਉਸਨੇ ਸੁਸੈਕਸ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅੰਗਰੇਜ਼ੀ ਵਿਭਾਗ ਵਿੱਚ ਬਤੌਰ ਲੈਕਚਰਾਰ ਕਾਰਜ ਨਿਭਾਇਆ । ਇਸਤੋਂ ਇਲਾਵਾ ਹੋਮੀ ਭਾਬਾ ਪੈਨਸੁਲਵੇਨਿਆ , ਸ਼ਿਕਾਗੋ ਅਤੇ ਅਮਰੀਕਾ ਦੀ ਹਾਰਵਰਡ ਯੂਨੀਵਰਸਿਟੀ ਵਿੱਚ ਵੀ ਪ੍ਰੋਫ਼ੇਸਰ ਦੇ ਆਹੁਦੇ ਤੇ ਰਿਹਾ ।Кандидат 1 : ਬਰਤਾਨੀਆ [Правильный ответ] Кандидат 2 : ਭਾਰਤ Кандидат 3 : ਸ਼ਿਕਾਗੋ Кандидат 4 : ਪਾਕਿਸਤਾਨ
Учитывая предложение на языке
Входное предложение
In the health sector the nation has now moved ahead from the conventional approach.
Получите следующий перевод из набора из 4886 предложений:
ആരോഗ്യമേഖലയില് ഇന്ന് രാജ്യം പരമ്പരാഗത രീതികളില് നിന്ന് മുന്നേറിക്കഴിഞ്ഞു.
| Задача | Мберт | XLM-R | Индикатор |
|---|---|---|---|
| Новости статьи | 89,58 | 95,52 | 95,87 |
| Прогноз заголовка в Википедии | 73,66 | 66.33 | 73,31 |
| QA с множественным выбором в стиле Cloze | 39.16 | 27,98 | 41.87 |
| Классификация жанра статьи | 90.63 | 97.03 | 97.34 |
| Названное признание сущности (F1-показатель) | 73,24 | 65,93 | 64,47 |
| Задача по переходу по перекрестному предложению | 21.46 | 13.74 | 27.12 |
| Средний | 64,62 | 61.09 | 66.66 |
| Задача | Тип задачи | Мберт | XLM-R | Индикатор |
|---|---|---|---|---|
| BBC News Classification | Классификация жанров | 60.55 | 75,52 | 74,60 |
| Обзоры продуктов IIT | Анализ настроений | 74,57 | 78.97 | 71.32 |
| Обзоры фильмов IITP | Устройство анализа | 56.77 | 61.61 | 59.03 |
| Статья Soham News | Классификация жанров | 80.23 | 87.6 | 78.45 |
| Мидас дискурс | Анализ дискурса | 71.20 | 79,94 | 78.44 |
| Классификация заголовков Inltk | Классификация жанров | 87,95 | 93,38 | 94,52 |
| Анализ настроений ACTSA | Анализ настроений | 48.53 | 59,33 | 61.18 |
| Winograd NLI | Вывод естественного языка | 56.34 | 55,87 | 56.34 |
| Выбор правдоподобной альтернативы (Copa) | Вывод естественного языка | 54,92 | 51.13 | 58.33 |
| Амрита точный перефраза | Обнаружение перефраза | 93,81 | 93.02 | 93,75 |
| Амрита грубая перефраза | Обнаружение перефраза | 83,38 | 82,20 | 84,33 |
| Средний | 69,84 | 74,42 | 73,66 |
* Примечание. Все модели были ограничены MAX_SEQ_LENGHT 128.
Модель можно скачать здесь. Как контрольные точки TF, так и двоичные файлы Pytorch включены в архив. В качестве альтернативы, вы также можете загрузить его из HuggingFace.
Если вы используете какой -либо из ресурсов, указать следующую статью:
@inproceedings{kakwani2020indicnlpsuite,
title={{IndicNLPSuite: Monolingual Corpora, Evaluation Benchmarks and Pre-trained Multilingual Language Models for Indian Languages}},
author={Divyanshu Kakwani and Anoop Kunchukuttan and Satish Golla and Gokul N.C. and Avik Bhattacharyya and Mitesh M. Khapra and Pratyush Kumar},
year={2020},
booktitle={Findings of EMNLP},
}
Мы хотели бы услышать от вас, если:
Код INDECBERT (и модели) выпускается по лицензии MIT.
Эта работа является результатом добровольных усилий в рамках инициативы AI4Bharat.