Inltk стремится предоставить поддержку ящиков для различных задач NLP, которые может понадобиться разработчику приложений для индийских языков. Бумага для библиотеки Inltk была принята на семинаре NLP-OSS EMNLP-2020. Вот ссылка на газету
Подробные документы на проверке вместе с инструкциями по установке по адресу https://inltk.readthedocs.io
| Язык | Код |
|---|---|
| хинди | привет |
| Пенджаби | а |
| Гуджарати | гуля |
| Каннада | кН |
| Малаялам | мл |
| Ария | или |
| Маратхи | Мистер |
| Бенгальский | мгновенный |
| Тамильский | ТА |
| Урду | Ур |
| Непальский | северо -восточный |
| санскрит | сана |
| Английский | поступка |
| телугу | театр |
| Язык | Сценарий | Код |
|---|---|---|
| Хинглиш (хинди+английский) | латинский | Привет |
| Tanglish (тамил+английский) | латинский | Ta-en |
| Манглиш (малаялам+английский) | латинский | ML-en |
| Язык | Репозиторий | Набор данных, используемый для языкового моделирования | Недоумение Ulmfit LM (При наборе проверки) | Недоумение Transformerxl LM (При наборе проверки) | Набор данных, используемый для классификации | Классификация: Тестовая точность | Классификация: Тестовый набор MCC | Классификация: ноутбук для воспроизводимости | Ulmfit Entricdings Visualization | Visualization Enceddings Transformerxl |
|---|---|---|---|---|---|---|---|---|---|---|
| хинди | NLP для хинди | Хинди Википедия Статьи - 172K Хинди Википедия Статьи - 55K | 34.06 35,87 | 26.09 34,78 | Би -би -си новостные статьи Обзоры фильмов IIT Patna Обзоры продуктов IIT Patna | 78,75 57.74 75,71 | 0,71 0,37 0,59 | Блокнот Блокнот Блокнот | Хинди встраивания проекции | Хинди встраивания проекции |
| Бенгальский | NLP для бенгальского | Бенгальские статьи Википедии | 41.2 | 39,3 | Бенгальские новостные статьи (Статьи SOHAM) | 90.71 | 0,87 | Блокнот | Бенгальская проекция встраивания | Бенгальская проекция встраивания |
| Гуджарати | NLP для Гуджарати | Гуджарати Википедия Статьи | 34.12 | 28.12 | Инлтк заголовки корпус - гуджарати | 91.05 | 0,86 | Блокнот | Гуджарати встраивает проекцию | Гуджарати встраивает проекцию |
| Малаялам | NLP для малаялам | Малаялам Википедия Статьи | 26.39 | 25,79 | Инлтк заголовки корпус - малаялам | 95,56 | 0,93 | Блокнот | Малаялам встроенный проекция | Малаялам встроенный проекция |
| Маратхи | NLP для маратхи | Маратхи Википедия Статьи | 18 | 17.42 | Инлтк заголовки корпус - маратхи | 92.40 | 0,85 | Блокнот | Marathi Entricdings Projection | Marathi Entricdings Projection |
| Тамильский | NLP для тамильского | Тамильские статьи Википедии | 19.80 | 17.22 | Инлтк заголовки корпус - тамильский | 95,22 | 0,92 | Блокнот | Проекция тамильских внедрений | Проекция тамильских внедрений |
| Пенджаби | NLP для пенджаби | Пенджаби Википедия Статьи | 24.40 | 14.03 | Набор данных классификации новостей INDICNLP - Пенджаби | 97.12 | 0,96 | Блокнот | Пенджабская проекция встраивания | Пенджабская проекция встраивания |
| Каннада | NLP для Каннады | Каннада Википедия Статьи | 70.10 | 61.97 | Indicnlp News статья набор данных - каннада | 98.87 | 0,98 | Блокнот | Каннада встраивается проекция | Каннада встраивается проекция |
| Ария | NLP для Oriya | Oriya Wikipedia Статьи | 26.57 | 26.81 | Indicnlp News Набор данных классификации - Oriya | 98.83 | 0,98 | Блокнот | Ория встраивает проекцию | Ория встраивает проекцию |
| санскрит | NLP для санскрита | Санскритские статьи Википедии | ~ 6 | ~ 3 | Набор данных санскрита Shlokas | 84.3 (действительный набор) | Проекция санскритов | Проекция санскритов | ||
| Непальский | NLP для непальского | Непальские статьи Википедии | 31.5 | 29.3 | Непальский набор данных новостей | 98,5 (действительный набор) | Непальская проекция встраивания | Непальская проекция встраивания | ||
| Урду | NLP для урду | Урду Википедия статьи | 13.19 | 12.55 | Набор данных News Urdu | 95.28 (действительный набор) | Урду встраивать проекцию | Урду встраивать проекцию | ||
| телугу | NLP для телугу | Телугу Википедия статьи | 27.47 | 29,44 | Набор данных новостей телугу Телугу новости Андхра джоти | 95,4 92.09 | Блокнот Блокнот | Проекция встраивания телугу | Проекция встраивания телугу | |
| Танглиш | NLP для Tanglish | Синтетический набор данных Tanglish | 37.50 | - | Dravidian Codemix hasoc @ Fire 2020 Дравидийский анализ настроений Codemix @ Fire 2020 | Оценка F1: 0,88 Оценка F1: 0,62 | - | Блокнот Блокнот | Проекция Tanglish Enterdings | - |
| Манглиш | NLP для Manglish | Синтетический набор данных Manglish | 45,84 | - | Dravidian Codemix hasoc @ Fire 2020 Дравидийский анализ настроений Codemix @ Fire 2020 | F1 Оценка: 0,74 F1 Оценка: 0,69 | - | Блокнот Блокнот | Manglish Enterdings Projection | - |
| Хинглиш | NLP для Hinglish | Синтетический набор данных Hinglish | 86.48 | - | - | - | - | - | Hinglish Enterdings Projection | - |
Примечание: английская модель была взята непосредственно с Fast.ai
| Язык | Репозиторий | Набор данных, используемый для классификации | Результаты при использовании Полный учебный набор | Процентное снижение в учебном наборе размера | Результаты при использовании Снижение учебного набора без перефразов | Результаты при использовании Снижение учебного набора с перефразами |
|---|---|---|---|---|---|---|
| хинди | NLP для хинди | Обзоры фильмов IIT Patna | Точность: 57,74 MCC: 37.23 | 80% (2480 -> 496) | Точность: 47.74 MCC: 20.50 | Точность: 56.13 MCC: 34,39 |
| Бенгальский | NLP для бенгальского | Бенгальские новостные статьи (Статьи SOHAM) | Точность: 90,71 MCC: 87,92 | 99% (11284 -> 112) | Точность: 69,88 MCC: 61.56 | Точность: 74.06 MCC: 65.08 |
| Гуджарати | NLP для Гуджарати | Инлтк заголовки корпус - гуджарати | Точность: 91.05 MCC: 86.09 | 90% (5269 -> 526) | Точность: 80,88 MCC: 70.18 | Точность: 81.03 MCC: 70.44 |
| Малаялам | NLP для малаялам | Инлтк заголовки корпус - малаялам | Точность: 95,56 MCC: 93,29 | 90% (5036 -> 503) | Точность: 82,38 MCC: 73,47 | Точность: 84,29 MCC: 76.36 |
| Маратхи | NLP для маратхи | Инлтк заголовки корпус - маратхи | Точность: 92,40 MCC: 85,23 | 95% (9672 -> 483) | Точность: 84.13 MCC: 68,59 | Точность: 84,55 MCC: 69.11 |
| Тамильский | NLP для тамильского | Инлтк заголовки корпус - тамильский | Точность: 95,22 MCC: 92,70 | 95% (5346 -> 267) | Точность: 86.25 MCC: 79,42 | Точность: 89,84 MCC: 84,63 |
Для получения более подробной информации о реализации или для воспроизведения результатов, проверьте соответствующие репозитории.
Если вы хотите добавить поддержку языка по своему выбору в Inltk, начните с проверки/поднятия проблемы здесь
Пожалуйста, проверьте шаги, которые я упоминал здесь для телугу для начала. Они должны быть почти похожи и для других языков.
Если вы хотите взять модели Inltk и усовершенствовать их своим собственным набором данных или создать свои собственные модели на вершине, пожалуйста, ознакомьтесь с репозиториями в приведенной выше таблице для языка по вашему выбору. Приведенные выше репозитории содержат ссылки на наборы данных, предварительные модели, классификаторы и весь код для этого.
Если вы хотите получить определенную функциональность в Inltk - начните с проверки/поднятия проблемы здесь
Shout out if you want to help :)
Shout out if you want to lead :)
Если вы используете эту библиотеку в своем исследовании, рассмотрите возможность ссылаться на:
@inproceedings{arora-2020-inltk,
title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
author = "Arora, Gaurav" ,
booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
month = nov,
year = "2020" ,
address = "Online" ,
publisher = "Association for Computational Linguistics" ,
url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
doi = "10.18653/v1/2020.nlposs-1.10" ,
pages = "66--71" ,
abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}