Потрясающий NLP
Кураторный список ресурсов, посвященных обработке естественного языка

Прочитайте это на английском, традиционном китайском языке
Пожалуйста, прочитайте руководящие принципы взноса, прежде чем внести свой вклад. Пожалуйста, добавьте свой любимый ресурс NLP, подняв запрос на тягу
Содержимое
- Резюме и тенденции исследования
- Выдающиеся исследовательские лаборатории НЛП
- Учебные пособия
- Чтение контента
- Видео и курсы
- Книги
- Библиотеки
- Node.js
- Питон
- C ++
- Ява
- Котлин
- Скала
- Ведущий
- Клоджюр
- Рубин
- Ржавчина
- NLP ++
- Джулия
- Услуги
- Аннотация Инструменты
- Наборы данных
- НЛП на корейском языке
- НЛП на арабском языке
- НЛП на китайском языке
- НЛП на немецком языке
- НЛП на польском
- НЛП на испанском
- НЛП на индийских языках
- НЛП в тайском языке
- НЛП на датском
- НЛП на вьетнамском языке
- НЛП для голландцев
- НЛП на индонезийском языке
- NLP в урду
- НЛП на персидском языке
- НЛП на украинском языке
- НЛП в Венгрии
- НЛП на португальском языке
- Другие языки
- Кредиты
Резюме и тенденции исследования
- NLP-Overview-это актуальный обзор методов глубокого обучения, применяемых к NLP, включая теорию, реализации, приложения и современные результаты. Это большое глубокое введение в НЛП для исследователей.
- NLP-Progress отслеживает прогресс в обработке естественного языка, включая наборы данных и текущее состояние для самых распространенных задач NLP
- Наступил момент ImageNet от NLP
- ACL 2018 Основные моменты: понимание представления и оценки в более сложных условиях
- Четыре тенденции глубокого обучения от ACL 2017. Часть первая: лингвистическая структура и встроенные слова
- Четыре тенденции глубокого обучения от ACL 2017. Часть вторая: интерпретация и внимание
- Основные моменты EMNLP 2017: захватывающие наборы данных, возврат кластеров и многое другое!
- Глубокое обучение обработке естественного языка (NLP): достижения и тенденции
- Обследование состояния искусства в генерации естественного языка
Выдающиеся исследовательские лаборатории НЛП
Вернуться к вершине
- Группа NLP Berkeley - Примечательные взносы включают в себя инструмент для реконструкции длинных мертвых языков, упоминаемых здесь, и, взяв корпорации из 637 языков, в настоящее время выступающих в Азии и Тихоокеанском регионе, и воссоздавая их потомка.
- Институт языковых технологий, Университет Карнеги -Меллона - Примечательные проекты включают Avenue Project, систему машинного перевода с синтаксисом для находящихся под угрозой исчезновения языков, таких как Quechua и Aymara, и ранее Noah's Ark, который создал AQMAR для улучшения инструментов NLP для арабского языка.
- Исследовательская группа NLP, Колумбийский университет - Ответственный за создание Bolt (интерактивная обработка ошибок для систем перевода речи) и не названный проект для характеристики смеха в диалоге.
- Центр или языковая обработка и речи, Университет Джона Хопкинса - недавно в новостях для разработки программного обеспечения для распознавания речи для создания диагностического теста или болезни Паркинсона здесь.
- Группа вычислительной лингвистики и обработки информации, Университет Мэриленда-Примечательные взносы включают сотрудничество с компанией человека или вопросы, отвечающие на слова и разработка моделирования фонетических представлений.
- Пенн естественного языка, Университет Пенсильвании- известный своим созданием Penn Treebank.
- Стэнфордская группа по обработке языка на Натраре- одна из лучших исследований НЛП в мире, известная для создания Стэнфордского Corenlp и их системы разрешения Coreference
Учебные пособия
Вернуться к вершине
Чтение контента
Общее машинное обучение
- Машинное обучение 101 от старшего творческого инженера Google объясняет машинное обучение как для инженеров, так и для руководителей
- AI Playbook - A16Z AI Playbook - отличная ссылка на то, чтобы перенаправить ваши менеджеры или контент для ваших презентаций
- Блог Рудера от Себастьяна Рудера за комментарии о лучших исследованиях НЛП
- Как маркировать Руководство по данным по управлению более крупными лингвистическими проектами аннотации
- Зависит от определения коллекции сообщений в блоге, охватывающих широкий спектр тем NLP с подробной реализацией
ВВЕДЕНИЕ И РУКОВОДСТВО В НЛП
- Понять и внедрить обработку естественного языка
- NLP в Python - Коллекция ноутбуков GitHub
- Обработка естественного языка: введение - Оксфорд
- Глубокое обучение NLP с Pytorch
- Практическое учебное пособие NLTK - учебные пособия NLTK, Nopyter Notebooks
- Обработка естественного языка с помощью Python - анализ текста с помощью инструментария естественного языка - онлайн и печатная книга, внедряющая концепции NLP с использованием NLTK. Авторы книги также написали библиотеку NLTK.
- Тренировать новую языковую модель с нуля - обнимающееся лицо?
- Super Duper NLP Repo (SDNLPR): коллекция ноутбуков Colab, охватывающих широкий спектр реализаций задач NLP.
Блоги и информационные бюллетени
- Глубокое обучение, НЛП и представления
- Иллюстрированный Берт, Эльмо и Ко. (Как NLP Cracked Transfer Learning) и иллюстрированный трансформатор
- Обработка естественного языка Hal Daumé III
- arxiv: обработка естественного языка (почти) с нуля
- Необоснованная эффективность Карпати рецидивирующих нейронных сетей
- Мастерство машинного обучения: глубокое обучение для обработки естественного языка
- Визуальные резюме бумаги NLP
Видео и онлайн -курсы
Вернуться к вершине
- Продвинутая обработка естественного языка - CS 685, UMass Amherst CS
- Глубокая обработка естественного языка - серия лекций от Оксфорда
- Глубокое обучение для обработки естественного языка (CS224 -N) - Ричард Сохер и Кристофер Мэннинг Стэнфордский курс
- Нейронные сети для НЛП - Институт языковых технологий Карнеги -Меллона там
- Глубокий курс NLP от Yandex Data School, охватывающий важные идеи от текста, встраиваемого до машинного перевода, включая моделирование последовательности, языковые модели и так далее.
- Fast.ai -код - вступительно обработки естественного языка - это охватывает смесь традиционных тем NLP (включая REGEX, SVD, наивную байесу, токенизация) и недавние подходы нейронной сети (включая RNNS, SEQ2SEQ, GRUS и Transformer), а также решающие счетные этические проблемы, такие как BIAS и Disinformation. Найдите здесь ноутбуки Jupyter
- Университет машинного обучения - Ускоренная обработка естественного языка - лекции переходят от введения в НЛП и обработку текста в рецидивирующие нейронные сети и трансформаторы. Материал можно найти здесь.
- Прикладная серия лекций на естественном языке от IIT Madras, взявших из оснований вплоть до автоэкодоров и всего. Ноутбуки GitHub для этого курса также доступны здесь
Книги
- Обработка речи и языка - бесплатная, профессор Дэн Юрафси
- Обработка естественного языка - БЕСПЛАТНО, NLP -заметки от доктора Джейкоба Эйзенштейна в Georgiatech
- NLP с Pytorch - Брайан и Делип Рао
- Добыча текста в r
- Обработка естественного языка с помощью Python
- Практическая обработка естественного языка
- Обработка естественного языка с Spark NLP
- Глубокое обучение для обработки естественного языка Стефаном Райджмакером
- Реальная обработка естественного языка - Масато Хагивара
- Обработка естественного языка в действии, второе издание - Хобсон -лейн и Мария Дишель
Библиотеки
Вернуться к вершине
C ++ - библиотеки C ++ | Вернуться к вершине
- INSNENT-библиотека нейронной сети для построения зависимых от экземпляра моделей NLP с динамическим пакетом без прокладки.
- Информация о извлечении информации MIT - инструменты CS, C ++ и Python для распознавания и извлечения именных объектов
- CRF ++ - Реализация условных случайных полей (CRF) для сегментирования/маркировки последовательных данных и других задач обработки естественного языка.
- CRFSuite - CRFSuite - это реализация условных случайных полей (CRFS) для маркировки последовательных данных.
- Счастчик BLLIP - синтаксический анализатор естественного языка BLLIP (также известный как анализатор Чарньак -Джонсона)
- Colibri-Core-библиотека C ++, инструменты командной строки и привязка Python для извлечения и работы с основными лингвистическими конструкциями, такими как N-граммы и Skipgrams, быстро и эффективно память.
- UCTO-Unicode-Aware регулярно-экспрессия на основе токенизатора для различных языков. Инструмент и библиотека C ++. Поддерживает формат Folia.
- Libfolia - C ++ Библиотека для формата Folia
- Frog - NLP Suite на основе памяти, разработанный для голландцев: POS Tagger, Lemmatiser, SARSER DEDINDIENT, NER, мелкий анализатор, морфологический анализатор.
- Meta - Meta: современный текстовый анализ - это инструментарий Data Sciences C ++, который облегчает добычу больших текстовых данных.
- Mecab (японский)
- Моисей
- Starspace-библиотека из Facebook для создания внедрений уровня уровня слова, уровня параграфа, уровня документа и для классификации текста
Java - Java NLP библиотеки | Вернуться к вершине
- Стэнфорд NLP
- Opennlp
- NLP4J
- Word2VEC в Java
- Реверберация веб-масштаба открытой информации
- OpenRegex Эффективный и гибкий язык регулярного выражения на основе токенов и двигатель.
- COGCOMPNLP - Основные библиотеки, разработанные в группе когнитивных вычислений в U U of Illinois.
- Mallet - машинное обучение для языкового инструментария - пакет для статистической обработки естественного языка, классификации документов, кластеризации, моделирования тем, извлечения информации и других приложений машинного обучения в текст.
- RDRPOSGAGGER - надежный инструментарий для тегов POS (как в Java, так и в Python) вместе с предварительно обученными моделями для 40+ языков.
Kotlin - Библиотеки Kotlin NLP | Вернуться к вершине
- Лингю библиотека обнаружения языка для котлин и Java, подходящая как для длинного, так и для короткого текста
- Kotidgy-генератор текстовых данных на основе индекса, написанный в Kotlin
Скала - библиотеки Scala NLP | Вернуться к вершине
- Саул - Библиотека для разработки систем НЛП, включая встроенные модули, такие как SRL, POS и т. Д.
- ATR4S-инструментарий с современными методами автоматического распознавания терминов.
- TM - реализация тематического моделирования на основе регуляризованного многоязычного PLSA.
- Word2Vec -Scala - интерфейс Scala к модели Word2VEC; Включает в себя операции на таких векторах, как дистанции слов и аналогию слова.
- EPIC - EPIC - это высокопроизводительный статистический анализатор, написанный в Scala, наряду с структурой для создания сложных структурированных моделей прогнозирования.
- Spark NLP - Spark NLP - это библиотека обработки естественного языка, созданная на вершине Apache Spark ML, которая обеспечивает простые, производительные и точные аннотации NLP для трубопроводов машинного обучения, которые легко масштабируются в распределенной среде.
R - R NLP Библиотеки | Вернуться к вершине
- Text2VEC - быстрая векторизация, моделирование тем, расстояния и перчаточные слова в R.
- WordVectors - пакет R для создания и изучения Word2VEC и других моделей встраивания слов
- Rmallet - R пакет для взаимодействия с инструментом машинного обучения Java Mallet
- DFR -Browser - создает визуализации D3 для просмотра тематических моделей текста в веб -браузере.
- DFRTOPICS - R Пакет для изучения тематических моделей текста.
- Sentiment_classifier - Классификация настроений с использованием слова Sense Sense и считывателя Wordnet
- JProcessing - Японские библиотеки обработки натуральных ландшаужеров с классификацией японских настроений
- CorporaExplorer - пакет R для динамического исследования текстовых коллекций
- TidyText - Text Maning с использованием Tidy Tools
- spacyr - r rabper to spacy nlp
- Взгляд задачи CRAN: обработка естественного языка
Clojure | Вернуться к вершине
- Clojure -Opennlp - обработка естественного языка в Clojure (OpenNLP)
- Инфекции-CLJ-Библиотека перегиба, подобных рельсам для Clojure и Clojurescript
- Postagga - библиотека для анализа естественного языка в Clojure и Clojurescript
Рубин | Вернуться к вершине
- Кевин Диас - коллекция библиотеки, инструменты и программное обеспечение с естественным языком (NLP)
- Практическая обработка естественного языка, выполненная в Ruby
Ржавчина | Вернуться к вершине
- Watchlang - библиотека признания естественного языка на основе триграмм
- Snips-Nlu-RS-библиотека готовой производства для разбора намерений
- Rust-Bert-готовые к использованию трубопроводов NLP и моделей на основе трансформаторов
NLP ++ - NLP ++ Language | Вернуться к вершине
- Расширение языка VSCODE - расширение языка NLP ++ для VSCODE
- NLP -двигатель - NLP ++ Engine для запуска кода NLP ++ на Linux, включая полный английский анализатор
- VisualText - домашняя страница для языка NLP ++
- NLP ++ Wiki - запись вики для языка NLP ++
Юлия | Вернуться к вершине
- Корпусные загрузки - различные погрузчики для различных корпораций NLP
- Языки - пакет для работы с человеческими языками
- TextAnalysis - пакет Julia для анализа текста
- TextModels - модели на основе нейронной сети для обработки естественного языка
- WordTokenizers - высокие токенизаторы производительности для обработки естественного языка и других связанных задач
- Word2VEC - интерфейс Julia к Word2VEC
Услуги
NLP как API с функциональностью более высокого уровня, такой как NER, тематическая теги и т. Д. Вернуться к вершине
- WIT -AI - Интерфейс естественного языка для приложений и устройств
- Понимание естественного языка IBM Watson - API и GitHub Demo
- Amazon Inply - NLP и ML Suite охватывает наиболее распространенные задачи, такие как NER, теги и анализ настроений
- Google Cloud Natural Language API - анализ синтаксиса, NER, анализ настроений и тегирование контента на не менее 9 языках включают английский и китайский (упрощенный и традиционный).
- Параллельдоты - Анализ текстового анализа высокого уровня, от анализа настроений до анализа намерений
- Microsoft Cognitive Service
- Textrazor
- Розетка
- Тексталитическая обработка естественного языка в браузере с анализом настроений, извлечением сущности, тегом POS, частотами слов, моделированием тем, облакам слов и многом другом
- NLP Cloud - модели Spacy NLP (пользовательские и предварительно обученные), которые обслуживали RESTFUL API для распознавания именованных объектов (NER), Tagging POS и многого другого.
- Cloudmersive - Unified и Free API NLP, которые выполняют такие действия, как тегирование речи, перефразирование текста, языковой перевод/обнаружение и анализ предложений
Аннотация Инструменты
- Ворота - Общая архитектура и текстовая инженерия - 15+ лет, бесплатный и открытый исходный код
- Anafora-это бесплатный инструмент для необработанных текстовых аннотаций с открытым исходным кодом.
- Brat - Brat Rapid Annotation Tool - это онлайн -среда для совместной текстовой аннотации
- DOCCANO - DOCCANO бесплатный, с открытым исходным кодом и предоставляет функции аннотации для классификации текста, маркировки последовательности и последовательности в последовательности
- Начало - платформа семантической аннотации, предлагающая интеллектуальную помощь и управление знаниями
- Tagtog, Team -Pirst Web Tool, чтобы найти, создавать, поддерживать и обмениваться наборами данных - стоит $
- Prodigy - это аннотационный инструмент, работающий на активном обучении, стоит $
- LightTag - размещен и управляемый инструмент для аннотации текстовых аннотаций для команд, стоит $
- RSTWEB - Местный или онлайн -инструмент с открытым исходным кодом для аннотаций дерева дискурсий
- Gitdox - Инструмент аннотации сервера с открытым исходным кодом с управлением и проверкой версий GitHub для данных XML и совместных электронных таблиц сетки
- Label Studio - Инструмент размещенного и управляемого текстового аннотации для команд, Freemium, стоит, стоит $
- DataSaur поддерживает различные задачи NLP для отдельных или команд, Freemium на основе
- Konfuzio-Team-Pirst House и на Prem Text, Image и PDF-аннотация
- Ubiai-Легкий в использовании инструмент аннотации текстовых аннотаций для команд с самыми полными функциями автоматической аннотации. Поддерживает NER, классификацию отношений и документов, а также аннотация OCR для маркировки счета, стоит $
- Шонья - Шонья - это бесплатная платформа аннотации данных с открытым исходным кодом с широкими разнообразиями системы управления уровнем организации и рабочего пространства. Шонья является агностиком, которые могут использоваться командами для аннотирования данных с различным уровнем проверки в масштабе.
- Аннотация Лаборатория-Бесплатная платформа без код для текстовой аннотации и обучения/настройки модели DL. Задача поддержки для распознавания, классификации, классификации, извлечения и утверждения названных объектов Spark NLP. Неограниченная поддержка пользователей, команд, проектов, документов. Не Foss.
- Flat-Flat-это веб-лингвистическая аннотационная среда, основанная на формате Folia, богатый формат на основе XML для лингвистической аннотации. Бесплатный и открытый исходный код.
Методы
Текст встраивания
Слово встраивание
Правило большого пальца: FASTTEXT >> GLOVE> WORD2VEC
Word2VEC - реализация - блог об объяснении
GLOVE - Блог Объединения
Fasttext - реализация - бумага - блог об объяснении
Слово предложения и языковой модели на основе моделей
Вернуться к вершине
- ELMO - глубокие контекстуализированные представления слов - ПИТОРЧ ПЕРЕМЕНА
- Ulmfit - Universal Language Model Fine Tuning для классификации текста Джереми Ховарда и Себастьяна Рудера
- Предоставление - контролируемое изучение универсальных представлений о предложении из данных о естественном языке по Facebook
- Cove - изучен в переводе: контекстуализированные векторы слов
- Векторы парграфа - из распределенных представлений о предложениях и документах. Смотрите учебник DOC2VEC в Gensim
- Sense2Vec - по словам смысла устранение неоднозначности
- Пропустить векторы мысли - метод представления слов
- Адаптивный скип -грамм - аналогичный подход, с адаптивными свойствами
- Последовательность к последовательности обучения - векторы слов для машинного перевода
Ответ на вопрос и извлечение знаний
Вернуться к вершине
- DRQA - Open Domain Вопрос Ответ на работу Facebook Исследования по данным Википедии
- Document-QA-простое и эффективное понимание прочитанного с несколькими параграфами Allenai
- Извлечение информации на основе шаблонов без шаблонов
- Privee: архитектура для автоматического анализа политик конфиденциальности в Интернете
Наборы данных
Вернуться к вершине
- NLP-датазиты отличная коллекция наборов данных NLP
- Gensim -DATA - хранилище данных для предварительных моделей NLP и NLP Corpora.
Многоязычные фреймворки NLP
Вернуться к вершине
- Udpipe-это тренировочный трубопровод для токенизации, тегов, лемматизации и анализа универсальных деревьев и других файлов conll-u. В основном написано в C ++, предлагает быстрое и надежное решение для многоязычной обработки NLP.
- NLP-Cube: Трубопровод обработки естественного языка-разделение предложений, токенизация, лемматизация, часть речи и анализ зависимости. Новая платформа, написанная на Python с Dynet 2.0. Предлагает автономные (привязки CLI/Python) и функциональность сервера (REST API).
- Uralicnlp - это библиотека NLP, в основном для многих находящихся под угрозой уральными языками, такими как сами -языки, языки Mordvin, Mari -языки, языки коми и так далее. Также поддерживаются некоторые непревзойденные языки, такие как финские, вместе с такими неохраняющими языками, как шведский и арабский. Uralicnlp может проводить морфологический анализ, генерацию, лемматизация и устранение неоднозначности.
НЛП на корейском языке
Вернуться к вершине
Библиотеки
- Konlpy - пакет Python для корейской обработки естественного языка.
- Mecab (корейский) - библиотека C ++ для корейской NLP
- Koalanlp - библиотека Scala для корейской обработки естественного языка.
- Konlp - R пакет для корейской обработки естественного языка
Блоги и учебные пособия
- Блог Dsindex
- Курс NLP в Университете Кангвонского университета в корейском языке
Наборы данных
- KAIST CORPUS - Корпус из Кореи -передового института науки и техники в Корее.
- Naver Sentiment Movie Corpus на корейском языке
- Архив Chosun Ilbo - набор данных в Корее из одной из основных газет в Южной Корее, Chosun Ilbo.
- Данные чата - данные чата на корейском языке
- Петиции - Соберите данные ходатайства с истекшим сроком действия с национального сайта петиции Blue House.
- Корейская параллельная корпорация - набор данных по переводу нейронной машины (NMT) для корейского на французский и корейский на английский язык
- Korquad - Набор данных корейской команды с источником Wiki HTML. Упоминает как v1.0, так и v2.1 во время добавления в Awesome NLP
НЛП на арабском языке
Вернуться к вершине
Библиотеки
- Goarabic - пакет Go для обработки арабского текста
- JSastem - JavaScript для арабского Stemming
- Pyarabic - библиотеки Python для арабского языка
- Rftokenizer - тренировочный сегментер Python для арабского, иврита и коптского
Наборы данных
- Многодоменные наборы данных - крупнейшие доступные многодоменные ресурсы для анализа арабских настроений
- LABR - Набор данных обзоров крупных арабских книг
- Арабские остановки - список арабских остатков из различных ресурсов
НЛП на китайском языке
Вернуться к вершине
Библиотеки
- jieba - пакет Python для утилиты сегментации слов на китайском языке
- Spearlp - Python Package для китайского NLP
- Fudannlp - библиотека Java для китайской текстовой обработки
- HANLP - многоязычная библиотека NLP
Антология
- Funnlp - Сбор инструментов и ресурсов NLP в основном для китайцев
НЛП на немецком языке
- Немецкий NLP-куратор с открытым доступом/открытым исходным кодом/готовыми ресурсами и инструментами разработаны с особым вниманием к немецким
НЛП на польском
- Польский NLP - курированный список ресурсов, посвященных обработке естественного языка (NLP) в польском. Модели, инструменты, наборы данных.
НЛП на испанском
Вернуться к вершине
Библиотеки
- SPANLP - Библиотека Python для обнаружения, цензуры и чистой ненормативной лексики, вульгарности, ненавистных слов, расизма, ксенофобии и издевательств в текстах, написанных на испанском языке. Он содержит данные 21 испаноязычных стран.
Данные
- Колумбийские политические речи
- Копенгаген деревобанк
- Испанские миллиарды слов корпус с вставками Word2VEC
- Компиляция испанских нездоровых корпораций
Слово и предложения встроены
- Испанские встраивания слов, рассчитанные с разными методами и из разных корпораций
- Испанские встраивания слов, рассчитанные из крупных корпораций и разных размеров с использованием быстрого текста
- Испанские предложения встроены из крупных корпораций с использованием Sent2VEC
- Бето - Берт для испанского
НЛП на индийских языках
Вернуться к вершине
Данные, корпуса и деревья
- Деревозабои для зависимости хинди-многопрофессиональный многослойный дерево
- Универсальные зависимости деревьев на хинди
- Параллельные универсальные зависимости деревобанк на хинди - меньшая часть вышеупомянутого дерева.
- Список стоп -слов ISI (хинди и бангла)
- Список стоп -слов Питера Грэма
- NLTK Corpus 60K Слова POS Tagged, Bangla, хинди, маратхи, телугу
- Набор данных по обзорам фильмов на хинди ~ 1K Образцы, 3 класса полярности
- BBC News Hindi Dataset 4.3K Образцы, 14 классов
- IIT Patna Hindi ABSA Dataset 5.4K Образцы, 12 доменов, 4K -аспекты, полярность аспекта и уровня предложения в 4 классах
- Bangla Absa 5,5K Образцы, 2 домена, 10 аспектов
- IIT Patna Review Review Datement Dataset 2K Образцы, 3 этикетки полярности
Корпуса/наборы данных, которые требуют входа/доступа, можно получить по электронной почте
- SAIL 2015 Twitter и Facebook помечены образцами настроений на хинди, бенгальском, тамильском, телугу.
- IIT Bombay NLP Resources SentiWordnet, фильмы и туризм Параллельный маркированный корпуса, полярность с надписью Sense Annoted Corpus, Marathi Polarity помечен Corpus.
- TDIL-IC объединяет множество полезных ресурсов и предоставляет доступ к наборам данных в противном случае закрытые наборы данных
Языковые модели и встроения слов
- Модель языков стиля Hindi2VEC и NLP-for-Hindi Ulmfit
- IIT Patna двуязычное слово встраивание Hi-en
- Фасттекстовое слово встраивание в целом кучу языков, обученное общему ползу
- Хинди и бенгальское слово2VEC
- Модель хинди и урду эльмо
- Санскрит Альберт, обученный санскритской Википедии и Оскар Корпус
Библиотеки и инструменты
- Многозадачный глубокий морфологический анализатор глубокий сетевой морфологический анализатор для хинди и урду
- Anoop Kunchukuttan 18 языков, целый ряд функций от токенизации до перевода
- Шиварендди -синтаксический анализатор зависимости и POS -метки для каннады, хинди и телугу. Python3 порт
- Inltk - инструментарий естественного языка для индийских языков (индийские языки субконтинента), построенный на вершине Pytorch/Fastai, который направлен на предоставление поддержки ящиков для общих задач NLP.
НЛП в тайском языке
Вернуться к вершине
Библиотеки
- Pythainlp - тайский NLP в пакете Python
- JTCC - библиотека кластеров персонажей в Java
- Cutkum - сегментация слова с глубоким обучением в Tensorflow
- Thai Language Toolkit - на основе статьи Wirote Aroonmanakun в 2002 году с включенным набором данных
- Synthai - сегментация слова и теги POS с использованием глубокого обучения в Python
Данные
- Inter Best - текстовое корпус с 5 миллионами слов с сегментацией слов
- Премьер -министр 29 - Набор данных, содержащий речи нынешнего премьер -министра Таиланда
НЛП на датском
- Названное признание сущности для датского
- Danlp - NLP Resources на датском
- Потрясающий датский - куратор
НЛП на вьетнамском языке
Библиотеки
- Underthesea - Вьетнамский инструментарий NLP
- vn.vitk - вьетнамский инструментарий для обработки текста
- Vncorenlp - вьетнамский инструментарий для обработки естественного языка
- Phobert - предварительно обученные языковые модели для вьетнамцев
- Pyvi - Python вьетнамский ядро NLP Toolkit
Данные
- Вьетнамский деревобанк - 10 000 предложений для избирательного разбора задания
- Bktreebank - Вьетнамский дерево именность деревьев
- Ud_vietnamese - Вьетнамская универсальная зависимость
- Vivos - бесплатный вьетнамский речевой корпус, состоящий из 15 часов записи речи Ailab
- Vntqcorpus (Big) .txt - 1,75 миллиона предложений в новостях
- Vitext2sql-набор данных для семантического анализа вьетнамского текста в SQL (выводы EMNLP-2020)
- EVB Corpus-20 000 000 слов (20 миллионов) из 15 двуязычных книг, 100 параллельных английских вьетнамских / вьетнамских текстов, 250 параллельных текстов по закону и постановления, 5000 новостных статей и 2000 субтитров фильма.
НЛП для голландцев
Вернуться к вершине
- Python -Frog - Python Binding с лягушкой, люкс NLP для голландцев. (POS -метка, лемматизация, анализ зависимости, NER)
- SimpleNlg_NL - Голландский Surface Realiser, используемый для генерации естественного языка на голландском языке, на основе реализации Sommerlg для английского и французского языка.
- Альпино - синтаксический анализатор зависимости для голландцев (также делает POS -метки и лемматизацию).
- Калди Н.Л. - Голландские модели распознавания речи, основанные на Калди.
- Spacy - голландская модель доступна. - Промышленная сила NLP с питоном и цинтоном.
НЛП на индонезийском языке
Наборы данных
- Компания Kompas и Tempo в ILPS
- PANL10N для POS Tagging: 39K предложения и токены 900K Word
- IDN для тега POS: этот корпус содержит 10 тыс. ПРЕДЛОЖЕНИЕ И 250K TOKEN
- Индонезийский деревобанк и универсальные зависимости-индонезийцы
- Indosum для текстового обобщения и классификации оба
- Wordnet -Bahasa - большой, свободный, семантический словарь
- Indobenchmark Indonlu включает в себя предварительно обученную языковую модель (Indobert), модель Fasttext, Indo4b Corpus и несколько наборов данных NLU.
Библиотеки и встраивание
- Натуральный язык инструментарий бахаса
- Индонезийское слово встраивание
- Предварительно проведенный индонезийский фантастический текст, встраиваемый в Википедию
- Indobenchmark Indonlu включает в себя модель с предварительным языком (Indobert), модель Fasttext, Indo4b Corpus и несколько наборов данных NLU.
NLP в урду
Наборы данных
- Сбор наборов данных урду для задач POS, NER и NLP
Библиотеки
- Библиотека обработки естественного языка для (??) языка урду
НЛП на персидском языке
Вернуться к вершине
Библиотеки
- HAZM - персидский инструментарий NLP.
- Парсивар: инструментарий для обработки языка для персидского
- Perke: Perke - это пакет извлечения ключей Python для персидского языка. Он обеспечивает сквозную конвейер извлечения ключевой фразы, в которой каждый компонент может быть легко изменен или расширен для разработки новых моделей.
- Perstem: персидский ствол, морфологический анализатор, транзитор и частичная часть речи
- Парсианализер: персидский анализатор Elasticsearch
- Virastar: уборка персидского текста!
Наборы данных
- Bijankhan Corpus: Bijanhhan Corpus - это тегированный корпус, который подходит для исследований по обработке естественного языка на персидском (фарси) языке. Эта коллекция собрана с ежедневных новостей и общих текстов. В этой коллекции все документы классифицируются на различные предметы, такие как политические, культурные и так далее. Полностью, есть 4300 различных предметов. Коллекция Биджанкхана содержит около 2,6 миллионов вручную с набором тегов, который содержит 40 персидских POS -тегов.
- Упсала персидский корпус (UPC): Uppsala Persian Corpus (UPC) - большой, свободно доступный персидский корпус. Корпус является модифицированной версией корпуса Биджанкхана с дополнительной сегментацией предложения и последовательной токенизацией, содержащей 2 704 028 токенов и аннотированные с 31 частью речи. Теги части речи перечислены с объяснениями в этой таблице.
- Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
Back to Top
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
Back to Top
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
Back to Top
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
Other Languages
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
Back to Top
Credits for initial curators and sources
Лицензия
License - CC0