inltk скачать - загрузка исходного кода inltk

inltk

Другой исходный код

Code-Mixed Languages support

Скачать

Натуральный язык инструментарий для индийских языков (Inltk)

Inltk стремится предоставить поддержку ящиков для различных задач NLP, которые может понадобиться разработчику приложений для индийских языков. Бумага для библиотеки Inltk была принята на семинаре NLP-OSS EMNLP-2020. Вот ссылка на газету

Документация

Подробные документы на проверке вместе с инструкциями по установке по адресу https://inltk.readthedocs.io

Поддерживаемые языки

Родные языки

Язык	Код
хинди	привет
Пенджаби	а
Гуджарати	гуля
Каннада	кН
Малаялам	мл
Ария	или
Маратхи	Мистер
Бенгальский	мгновенный
Тамильский	ТА
Урду	Ур
Непальский	северо -восточный
санскрит	сана
Английский	поступка
телугу	театр

Код смешанных языков

Язык	Сценарий	Код
Хинглиш (хинди+английский)	латинский	Привет
Tanglish (тамил+английский)	латинский	Ta-en
Манглиш (малаялам+английский)	латинский	ML-en

Репозитории, содержащие модели, используемые в Inltk

Язык	Репозиторий	Набор данных, используемый для языкового моделирования	Недоумение Ulmfit LM (При наборе проверки)	Недоумение Transformerxl LM (При наборе проверки)	Набор данных, используемый для классификации	Классификация: Тестовая точность	Классификация: Тестовый набор MCC	Классификация: ноутбук для воспроизводимости	Ulmfit Entricdings Visualization	Visualization Enceddings Transformerxl
хинди	NLP для хинди	Хинди Википедия Статьи - 172K Хинди Википедия Статьи - 55K	34.06 35,87	26.09 34,78	Би -би -си новостные статьи Обзоры фильмов IIT Patna Обзоры продуктов IIT Patna	78,75 57.74 75,71	0,71 0,37 0,59	Блокнот Блокнот Блокнот	Хинди встраивания проекции	Хинди встраивания проекции
Бенгальский	NLP для бенгальского	Бенгальские статьи Википедии	41.2	39,3	Бенгальские новостные статьи (Статьи SOHAM)	90.71	0,87	Блокнот	Бенгальская проекция встраивания	Бенгальская проекция встраивания
Гуджарати	NLP для Гуджарати	Гуджарати Википедия Статьи	34.12	28.12	Инлтк заголовки корпус - гуджарати	91.05	0,86	Блокнот	Гуджарати встраивает проекцию	Гуджарати встраивает проекцию
Малаялам	NLP для малаялам	Малаялам Википедия Статьи	26.39	25,79	Инлтк заголовки корпус - малаялам	95,56	0,93	Блокнот	Малаялам встроенный проекция	Малаялам встроенный проекция
Маратхи	NLP для маратхи	Маратхи Википедия Статьи	18	17.42	Инлтк заголовки корпус - маратхи	92.40	0,85	Блокнот	Marathi Entricdings Projection	Marathi Entricdings Projection
Тамильский	NLP для тамильского	Тамильские статьи Википедии	19.80	17.22	Инлтк заголовки корпус - тамильский	95,22	0,92	Блокнот	Проекция тамильских внедрений	Проекция тамильских внедрений
Пенджаби	NLP для пенджаби	Пенджаби Википедия Статьи	24.40	14.03	Набор данных классификации новостей INDICNLP - Пенджаби	97.12	0,96	Блокнот	Пенджабская проекция встраивания	Пенджабская проекция встраивания
Каннада	NLP для Каннады	Каннада Википедия Статьи	70.10	61.97	Indicnlp News статья набор данных - каннада	98.87	0,98	Блокнот	Каннада встраивается проекция	Каннада встраивается проекция
Ария	NLP для Oriya	Oriya Wikipedia Статьи	26.57	26.81	Indicnlp News Набор данных классификации - Oriya	98.83	0,98	Блокнот	Ория встраивает проекцию	Ория встраивает проекцию
санскрит	NLP для санскрита	Санскритские статьи Википедии	~ 6	~ 3	Набор данных санскрита Shlokas	84.3 (действительный набор)			Проекция санскритов	Проекция санскритов
Непальский	NLP для непальского	Непальские статьи Википедии	31.5	29.3	Непальский набор данных новостей	98,5 (действительный набор)			Непальская проекция встраивания	Непальская проекция встраивания
Урду	NLP для урду	Урду Википедия статьи	13.19	12.55	Набор данных News Urdu	95.28 (действительный набор)			Урду встраивать проекцию	Урду встраивать проекцию
телугу	NLP для телугу	Телугу Википедия статьи	27.47	29,44	Набор данных новостей телугу Телугу новости Андхра джоти	95,4 92.09		Блокнот Блокнот	Проекция встраивания телугу	Проекция встраивания телугу
Танглиш	NLP для Tanglish	Синтетический набор данных Tanglish	37.50	-	Dravidian Codemix hasoc @ Fire 2020 Дравидийский анализ настроений Codemix @ Fire 2020	Оценка F1: 0,88 Оценка F1: 0,62	-	Блокнот Блокнот	Проекция Tanglish Enterdings	-
Манглиш	NLP для Manglish	Синтетический набор данных Manglish	45,84	-	Dravidian Codemix hasoc @ Fire 2020 Дравидийский анализ настроений Codemix @ Fire 2020	F1 Оценка: 0,74 F1 Оценка: 0,69	-	Блокнот Блокнот	Manglish Enterdings Projection	-
Хинглиш	NLP для Hinglish	Синтетический набор данных Hinglish	86.48	-	-	-	-	-	Hinglish Enterdings Projection	-

Примечание: английская модель была взята непосредственно с Fast.ai

Эффект использования переноса обучения + перефразы из Inltk

Язык	Репозиторий	Набор данных, используемый для классификации	Результаты при использовании Полный учебный набор	Процентное снижение в учебном наборе размера	Результаты при использовании Снижение учебного набора без перефразов	Результаты при использовании Снижение учебного набора с перефразами
хинди	NLP для хинди	Обзоры фильмов IIT Patna	Точность: 57,74 MCC: 37.23	80% (2480 -> 496)	Точность: 47.74 MCC: 20.50	Точность: 56.13 MCC: 34,39
Бенгальский	NLP для бенгальского	Бенгальские новостные статьи (Статьи SOHAM)	Точность: 90,71 MCC: 87,92	99% (11284 -> 112)	Точность: 69,88 MCC: 61.56	Точность: 74.06 MCC: 65.08
Гуджарати	NLP для Гуджарати	Инлтк заголовки корпус - гуджарати	Точность: 91.05 MCC: 86.09	90% (5269 -> 526)	Точность: 80,88 MCC: 70.18	Точность: 81.03 MCC: 70.44
Малаялам	NLP для малаялам	Инлтк заголовки корпус - малаялам	Точность: 95,56 MCC: 93,29	90% (5036 -> 503)	Точность: 82,38 MCC: 73,47	Точность: 84,29 MCC: 76.36
Маратхи	NLP для маратхи	Инлтк заголовки корпус - маратхи	Точность: 92,40 MCC: 85,23	95% (9672 -> 483)	Точность: 84.13 MCC: 68,59	Точность: 84,55 MCC: 69.11
Тамильский	NLP для тамильского	Инлтк заголовки корпус - тамильский	Точность: 95,22 MCC: 92,70	95% (5346 -> 267)	Точность: 86.25 MCC: 79,42	Точность: 89,84 MCC: 84,63

Для получения более подробной информации о реализации или для воспроизведения результатов, проверьте соответствующие репозитории.

Внося

Добавить новую языковую поддержку

Если вы хотите добавить поддержку языка по своему выбору в Inltk, начните с проверки/поднятия проблемы здесь

Пожалуйста, проверьте шаги, которые я упоминал здесь для телугу для начала. Они должны быть почти похожи и для других языков.

Улучшение моделей/использование моделей для собственного исследования

Если вы хотите взять модели Inltk и усовершенствовать их своим собственным набором данных или создать свои собственные модели на вершине, пожалуйста, ознакомьтесь с репозиториями в приведенной выше таблице для языка по вашему выбору. Приведенные выше репозитории содержат ссылки на наборы данных, предварительные модели, классификаторы и весь код для этого.

Добавить новые функциональные возможности

Если вы хотите получить определенную функциональность в Inltk - начните с проверки/поднятия проблемы здесь

Что дальше

.. и быть работающим над

Shout out if you want to help :)

Добавить поддержку Maithili

.. и не работая над

Shout out if you want to lead :)

Добавьте поддержку для всех языков
Добавить поддержку текста для всех языков
Работать над унифицированной моделью для всех языков
POS поддержка в Inltk
Добавить переводы - на языки и обратно в Inltk + English

Признание Inltk

Джереми Ховард в Твиттере
Себастьян Рудер в Твиттере
Винсент Баучер, Филип Фоллет, Стив Нури на LinkedIn
Каниможи, Сахам, Имаад на LinkedIn
Inltk был в тренде на GitHub в мае 2019 года

Цитирование

Если вы используете эту библиотеку в своем исследовании, рассмотрите возможность ссылаться на:

@inproceedings{arora-2020-inltk,
    title = "i{NLTK}: Natural Language Toolkit for Indic Languages" ,
    author = "Arora, Gaurav" ,
    booktitle = "Proceedings of Second Workshop for NLP Open Source Software (NLP-OSS)" ,
    month = nov,
    year = "2020" ,
    address = "Online" ,
    publisher = "Association for Computational Linguistics" ,
    url = "https://www.aclweb.org/anthology/2020.nlposs-1.10" ,
    doi = "10.18653/v1/2020.nlposs-1.10" ,
    pages = "66--71" ,
    abstract = "We present iNLTK, an open-source NLP library consisting of pre-trained language models and out-of-the-box support for Data Augmentation, Textual Similarity, Sentence Embeddings, Word Embeddings, Tokenization and Text Generation in 13 Indic Languages. By using pre-trained models from iNLTK for text classification on publicly available datasets, we significantly outperform previously reported results. On these datasets, we also show that by using pre-trained models and data augmentation from iNLTK, we can achieve more than 95{%} of the previous best performance by using less than 10{%} of the training data. iNLTK is already being widely used by the community and has 40,000+ downloads, 600+ stars and 100+ forks on GitHub. The library is available at https://github.com/goru001/inltk." ,
}

Расширять

Дополнительная информация

Версия Code-Mixed Languages support
Тип Другой исходный код
Время обновления 2025-04-19
размер 695.07KB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

inltk

Натуральный язык инструментарий для индийских языков (Inltk)

Документация

Поддерживаемые языки

Родные языки

Код смешанных языков

Репозитории, содержащие модели, используемые в Inltk

Эффект использования переноса обучения + перефразы из Inltk

Внося

Добавить новую языковую поддержку

Улучшение моделей/использование моделей для собственного исследования

Добавить новые функциональные возможности

Что дальше

.. и быть работающим над

.. и не работая над

Признание Inltk

Цитирование

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express