Тайский ресурс НЛП
Коллекция библиотек программного обеспечения Thai Natural Language (NLP), словарей и корпуса. Всегда приветствуйте запросы на развлечение.
Библиотеки/Сервисы
Тайский кластер персонажей
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| JTCC | Тайский кластер персонажей | Ява | | GPL-3.0 | Виттават |
| TCC | Тайский кластер персонажей | Питон | | Apache 2.0 | ВАННАФОНГ |
Анализ настроений
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| Sentiment_analysis_thai | | | | | Jagerv3 |
Soundex
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| Pythainlp | Питон 3 | LK82 + UDOD83 | Apache 2.0 | Коракот, Гитуб | |
Слово сегментация
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| Чамхо | Лаос/тайская сегментация слова | Ржавчина | LGPL | GitHub | |
| Cutkum | Тайская сегментация слова с глубоким обучением в Tensorflow. Rnn. | Питон | 93% F-мера. | Грань | Pucktada, Github |
| Cutthai | Тайская сегментация слов, написанная в кофейне редактирования | Кофейная сценария | | Грань | PureExe/Cutthai GitHub |
| Глубокий | Библиотека токенизации Thai Word с использованием глубокой нейронной сети. CNN. | Питон | 98,8% F-мера. | Грань | Rkcosmos, Github |
| Lexto: Thai Lexeme Tokenizer | Ява | | LGPL | Некейс | |
| Лексто | Питон 2 | | LGPL | GitHub | |
| Лексто | Питон 3 | | LGPL | GitHub | |
| Многоканидатская сегментация | Сегментация слов с несколькими кандидатами на тайский язык | Python, RNN, LSTM | 97,0% F-мера (уровень слов), 98,95% F-мера (граничный уровень) | Грань | бумага, GitHub |
| Pythainlp | Питон 3 | Максимальное соответствие и различные другие двигатели | Apache 2.0 | GitHub | |
| Посоль | Swath (интеллектуальный анализ слов для тайского) - это сегментация слова для тайского языка | В | Самое длинное сопоставление, максимальное соответствие и часть речи Bigram. | GPL | Paisarn Charoenpornsawat, CMU |
| Синтхей | Тайская сегментация слов и часть речи с глубоким обучением. Rnn. LSTM. | Питон | 99,2% F-мера | Грань | Kenjiroai, Github |
| Thai Language Toolkit (TLTK) | Основано на статье Wirote Aroonmanakun в 2002 году. Сегментация слов основана на максимальном подходе. Сегментация слога основана на статистике 3 граммов. (Набор данных включен) | Питон | 97,86% F-мера. (Он был протестирован на другом испытательном сборе; не справедливо сравнивать его с другими моделями.) | GPLV3 | Пипи |
| Wordcut | Thai Word Breaker для node.js | JavaScript, node.js | | LGPL-3.0 | Veer66, Github |
| WordCutpy | Простой тайский токенизатор слова, написанный в 1 файле Python | Питон 3 | | LGPL-3.0 | Veer66, Github |
Часть тега речи (POS Tagging)
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| Чартные посты | Тайский POS TAGGER | В | | Все права защищены | Aiat, kindml, thanaruk T. ([email protected]), Tchayintr, Demo at iapp |
| Jitar+Naist | Простая триграмма HMM Часть речи Tagger | Ява | | | Ver66, jitar + naist, 1 + naist, 2 |
| Синтхей | Тайская сегментация слов и часть речи с глубоким обучением. Rnn. LSTM. | Питон | 0,9163 F-мера. Rnn. LSTM | Грань | Kenjiroai, Github |
Название объекта признание
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| Названная организация тега (тайское гнездо) | Тайский названный сущностью спецификация тега и инструменты | | | GPL | Kindml, Siit, Aiat |
| Тайнер | Тайский назван признание сущности для Pythainlp | Питон | | Apache 2.0 (Code) & CC By 3.0 (набор данных) | Тайнер |
Структура новостей
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| Программа маркировки структуры новостей | Программа тегов новостной структуры Thai | | Метка метаданных, тегирование структуры, автоматическое генерация заголовков новостей | GPL | Айайт |
Синтаксическое анализ и инструменты
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| Карт-карты | Извлекать синтаксическую структуру из предложения с меткой POS. | В | | Все права защищены | Aiat, kindml, thanaruk T. ([email protected]), Tchayintr, Demo at iapp |
| Грамматическая обработка | Маркированные кронштейны -> Бесплатные грамматики (CFGS) | Питон | Преобразовать и вычислять вероятность | | chayintr |
Слово внедрение
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| KOBRIT-Word-Embedding | Внедрение TensorFlow Thai Word Enlceding | Питон | Исходный код, пример, график расстояния слов | LGPL | KOBRIT V. |
Ответ на вопрос (понимание машины)
| Услуга | Описание | Лицензия | Автор и ссылка |
|---|
| Понимание тайского машины (THAIMC) | Двунаправленный поток внимания | Авторское право (в качестве услуги) | iApp-ai |
Эмозификация
| Услуга | Описание | Лицензия | Автор и ссылка |
|---|
| Тайское эмотирование | LSTM | GPL | Демо в IAPP-AI и SOURCE, GitHub |
Корпус и набор данных
Словари / переводчики пары
| Библиотека | Описание | Размер | Функции | Лицензия | Связь |
|---|
| Лекситрон | Тайский <--> английский словарь | | Th-> en, en-> th | Лекситронная лицензия | Некейс |
| Транслитерационный корпус | | 31K пары | Тайский переводчик | Cc by-nc-sa 3.0 | Некейс |
| Яйтрон | Lexitron in Machine Readable Format (XML) | | Th-> en, en-> th | Лекситронная лицензия | Схема Veer66, код данных и конверсии |
Загружаемый текстовый корпус
| Библиотека | Описание | Размер | Функции | Лицензия | Связь |
|---|
| Нажмите на приманку предложения | Тайский нажимающий предложение | 330 отправлено. (90,7 КБ) | | Грань | Wannaphongcom |
| Interbest 2009/2010 | | 5 М слова | Слово сег. | Cc by-nc-sa 3.0 | Некейс |
| Орхидея | | 30к отправлено. | Word Seg., POS Tagged. | Cc by-nc-sa 3.0 | Некейс |
| Премьер -министр 29 | Речевые приговоры премьер -министра 29 | 338 КБ | Слово шесбренное, имя объект с меткой | Грань | Wannaphongcom |
| Тайский шутки-корпус | Очищенные тайские шутки Корпус | 457 шуток | | GPLV3 | IAPP Technology |
| Тайский названный объект корпорации | Названные ученики Wirote Aroonmanakun | 266KB-1,5 МБ | слог seg., word seg., названный объект Tagged | GPLV3 (не уверен, но TLTK использует эту лицензию) | นัชชา ถิระสาโรช Данные ศศิวิมล กาลันสีมา Данные ณัฐดาพร เลิศชีวะ Данные |
| Тайский пенс | Thai-Nest: Thai названная спецификация тегов и инструментов | 45K+ Имя токен объекта | Имя сущности с меткой | LGPL | Kindml |
| Тайский сентиментальный список слов | Список сентиментальных слов тайский | 52 КБ | Разделенные слова как прил. | Грань | Wannaphongcom |
| Тайская Википедия | Формальные статьи | 1,49 ГБ (~ 213,1 МБ сжата) | XML | GFDL | Википедия |
| Тайский Wordnet | Конструкция тайской сети Word Net of 1-го порядка Общие базовые концепции с использованием метода двунаправленного перевода и с словарями различных компиляционных подходов (ธนนท์ หลีน้อย หลีน้อย)
Конструкция тайской сети Word Net of 2-го порядка объекта Общие базовые концепции с использованием метода двунаправленного перевода: исследование разнообразия значений, влияющих на точность трансляции (ปริศนา อัครพุทธิพร) | | Wordnet | N/a | ธนนท์ หลีน้อย 2008 ปริศนา อัครพุทธิพร Данные 2008 |
| TNC Top 5000 слов | Частота слов | 5000 слов | Частота тайских слов в различных жанрах, Excel | Все права защищены | Чула |
| Токсичность в тайском твитте | Токийский столичный университетский университет группа по обработке естественного языка | | Каждый твит помечен как токсичный или нетоксичный | CC BY-NC 4.0 | TMU-NLP |
| Wissight Sentiment Corpus | Сообщение в социальных сетях с меткой настроения (положительное, нейтральное, негативное, вопрос). | ~ 26 700 сообщений | Метка с чувствами, этикетка вопросов | Общественный достояние | Pythainlp |
Текстовый корпус веб -запроса
| Библиотека | Описание | Размер | Функции | Лицензия | Связь |
|---|
| Тайский национальный корпус 2 | | 32 -метровые слова | Запрос текст по жанру, домен | Все права защищены | Чула |
| Тайский медицинский документ | | 3594 документа | Документ и динамическая карта ключевых слов | Все права защищены | Kindml, Siit |
| Библиотека юго -восточной азиатской языки | Тайские новости, веб -текст, поп -музыка, литература, топонимы | 20м чар | Фаза вокруг текста поиска | | Пеланг |
| HSE THAI CORPUS | Современные тексты, написанные на тайском языке (в основном новостные сайты) | 50 -метровые токены | Запрос по форме слова, лексем, перевод, грамматические атрибуты, лексические атрибуты | | Школа лингвистики HSE |
Параллельный корпус
| Библиотека | Описание | Размер | Функции | Лицензия | Связь |
|---|
| Talpco | Азиатский язык Tufs Asian Parallel Corpus | 1327 отправлено | Открытый параллельный корпус, состоящий из японских предложений и их переводов на бирманцы (Мьянма; официальный язык Республики Союза Мьянмы), Малайский (национальный язык Малайзии, Сингапура и Брунея), индонезийский, тайский, Вьетнамский и английский | CC на 4,0 | Talpco |
Предварительно обученные языковые модели
| Предварительно обученная модель | Описание | Размер | Размеры | Лицензия | Связь |
|---|
| Фасттекст | Модель Skip-Gram, обученная в Википедии с использованием FastText | | 300 | CC BY-SA 3.0 | Facebook + Bin & Text + только текст |
| thai2fit | Ulmfit на Википедии. Недоумение 46,80959 с 60 002 встроениями. | 70 МБ | 300 | Грань | Thai2VEC / Pythainlp |
| Тберт | Еще один предварительно обученный Берт, особенно в тайском языке | | | Apache 2.0 | chayintr |
Тесты
Бессмысла классификации тайского текста
- Wongnai-Corpus
- Prachathai-67k
- Wissight-Sentiment
- TrueVoice-intent: назначение
Инструменты
Корпус -экстракторы
| Библиотека | Описание | Языки программирования | Функции | Лицензия | Автор и ссылка |
|---|
| Best2010 Плита | Инструмент для извлечения сегментированных слов из Thai Segmented Best2010 Corpus | Python3 | Извлечение сегментированных слов, функций и дивизий данных | Apache 2.0 | chayintr |
Не найдено? Попробуйте посмотреть на другой Thai NLP Awesome List/Resource (например, этот)
https://resources.aiat.or.th/
Благодарности
- BACT - для предложений по словам лицензии.
- C4n
- VEER66
- BI89
- Chayintr
- PureExe
- CSTORM125
- Wannaphongcom
- Ekapolc