awesome nlp скачать - awesome nlp Скачать

awesome nlp

Другой исходный код

1.0.0

Скачать

Потрясающий NLP

Кураторный список ресурсов, посвященных обработке естественного языка

Потрясающий логотип NLP

Прочитайте это на английском, традиционном китайском языке

Пожалуйста, прочитайте руководящие принципы взноса, прежде чем внести свой вклад. Пожалуйста, добавьте свой любимый ресурс NLP, подняв запрос на тягу

Содержимое

Резюме и тенденции исследования
Выдающиеся исследовательские лаборатории НЛП
Учебные пособия
- Чтение контента
- Видео и курсы
- Книги
Библиотеки
- Node.js
- Питон
- C ++
- Ява
- Котлин
- Скала
- Ведущий
- Клоджюр
- Рубин
- Ржавчина
- NLP ++
- Джулия
Услуги
Аннотация Инструменты
Наборы данных
НЛП на корейском языке
НЛП на арабском языке
НЛП на китайском языке
НЛП на немецком языке
НЛП на польском
НЛП на испанском
НЛП на индийских языках
НЛП в тайском языке
НЛП на датском
НЛП на вьетнамском языке
НЛП для голландцев
НЛП на индонезийском языке
NLP в урду
НЛП на персидском языке
НЛП на украинском языке
НЛП в Венгрии
НЛП на португальском языке
Другие языки
Кредиты

Резюме и тенденции исследования

NLP-Overview-это актуальный обзор методов глубокого обучения, применяемых к NLP, включая теорию, реализации, приложения и современные результаты. Это большое глубокое введение в НЛП для исследователей.
NLP-Progress отслеживает прогресс в обработке естественного языка, включая наборы данных и текущее состояние для самых распространенных задач NLP
Наступил момент ImageNet от NLP
ACL 2018 Основные моменты: понимание представления и оценки в более сложных условиях
Четыре тенденции глубокого обучения от ACL 2017. Часть первая: лингвистическая структура и встроенные слова
Четыре тенденции глубокого обучения от ACL 2017. Часть вторая: интерпретация и внимание
Основные моменты EMNLP 2017: захватывающие наборы данных, возврат кластеров и многое другое!
Глубокое обучение обработке естественного языка (NLP): достижения и тенденции
Обследование состояния искусства в генерации естественного языка

Выдающиеся исследовательские лаборатории НЛП

Вернуться к вершине

Группа NLP Berkeley - Примечательные взносы включают в себя инструмент для реконструкции длинных мертвых языков, упоминаемых здесь, и, взяв корпорации из 637 языков, в настоящее время выступающих в Азии и Тихоокеанском регионе, и воссоздавая их потомка.
Институт языковых технологий, Университет Карнеги -Меллона - Примечательные проекты включают Avenue Project, систему машинного перевода с синтаксисом для находящихся под угрозой исчезновения языков, таких как Quechua и Aymara, и ранее Noah's Ark, который создал AQMAR для улучшения инструментов NLP для арабского языка.
Исследовательская группа NLP, Колумбийский университет - Ответственный за создание Bolt (интерактивная обработка ошибок для систем перевода речи) и не названный проект для характеристики смеха в диалоге.
Центр или языковая обработка и речи, Университет Джона Хопкинса - недавно в новостях для разработки программного обеспечения для распознавания речи для создания диагностического теста или болезни Паркинсона здесь.
Группа вычислительной лингвистики и обработки информации, Университет Мэриленда-Примечательные взносы включают сотрудничество с компанией человека или вопросы, отвечающие на слова и разработка моделирования фонетических представлений.
Пенн естественного языка, Университет Пенсильвании- известный своим созданием Penn Treebank.
Стэнфордская группа по обработке языка на Натраре- одна из лучших исследований НЛП в мире, известная для создания Стэнфордского Corenlp и их системы разрешения Coreference

Учебные пособия

Вернуться к вершине

Чтение контента

Общее машинное обучение

Машинное обучение 101 от старшего творческого инженера Google объясняет машинное обучение как для инженеров, так и для руководителей
AI Playbook - A16Z AI Playbook - отличная ссылка на то, чтобы перенаправить ваши менеджеры или контент для ваших презентаций
Блог Рудера от Себастьяна Рудера за комментарии о лучших исследованиях НЛП
Как маркировать Руководство по данным по управлению более крупными лингвистическими проектами аннотации
Зависит от определения коллекции сообщений в блоге, охватывающих широкий спектр тем NLP с подробной реализацией

ВВЕДЕНИЕ И РУКОВОДСТВО В НЛП

Понять и внедрить обработку естественного языка
NLP в Python - Коллекция ноутбуков GitHub
Обработка естественного языка: введение - Оксфорд
Глубокое обучение NLP с Pytorch
Практическое учебное пособие NLTK - учебные пособия NLTK, Nopyter Notebooks
Обработка естественного языка с помощью Python - анализ текста с помощью инструментария естественного языка - онлайн и печатная книга, внедряющая концепции NLP с использованием NLTK. Авторы книги также написали библиотеку NLTK.
Тренировать новую языковую модель с нуля - обнимающееся лицо?
Super Duper NLP Repo (SDNLPR): коллекция ноутбуков Colab, охватывающих широкий спектр реализаций задач NLP.

Блоги и информационные бюллетени

Глубокое обучение, НЛП и представления
Иллюстрированный Берт, Эльмо и Ко. (Как NLP Cracked Transfer Learning) и иллюстрированный трансформатор
Обработка естественного языка Hal Daumé III
arxiv: обработка естественного языка (почти) с нуля
Необоснованная эффективность Карпати рецидивирующих нейронных сетей
Мастерство машинного обучения: глубокое обучение для обработки естественного языка
Визуальные резюме бумаги NLP

Видео и онлайн -курсы

Вернуться к вершине

Продвинутая обработка естественного языка - CS 685, UMass Amherst CS
Глубокая обработка естественного языка - серия лекций от Оксфорда
Глубокое обучение для обработки естественного языка (CS224 -N) - Ричард Сохер и Кристофер Мэннинг Стэнфордский курс
Нейронные сети для НЛП - Институт языковых технологий Карнеги -Меллона там
Глубокий курс NLP от Yandex Data School, охватывающий важные идеи от текста, встраиваемого до машинного перевода, включая моделирование последовательности, языковые модели и так далее.
Fast.ai -код - вступительно обработки естественного языка - это охватывает смесь традиционных тем NLP (включая REGEX, SVD, наивную байесу, токенизация) и недавние подходы нейронной сети (включая RNNS, SEQ2SEQ, GRUS и Transformer), а также решающие счетные этические проблемы, такие как BIAS и Disinformation. Найдите здесь ноутбуки Jupyter
Университет машинного обучения - Ускоренная обработка естественного языка - лекции переходят от введения в НЛП и обработку текста в рецидивирующие нейронные сети и трансформаторы. Материал можно найти здесь.
Прикладная серия лекций на естественном языке от IIT Madras, взявших из оснований вплоть до автоэкодоров и всего. Ноутбуки GitHub для этого курса также доступны здесь

Книги

Обработка речи и языка - бесплатная, профессор Дэн Юрафси
Обработка естественного языка - БЕСПЛАТНО, NLP -заметки от доктора Джейкоба Эйзенштейна в Georgiatech
NLP с Pytorch - Брайан и Делип Рао
Добыча текста в r
Обработка естественного языка с помощью Python
Практическая обработка естественного языка
Обработка естественного языка с Spark NLP
Глубокое обучение для обработки естественного языка Стефаном Райджмакером
Реальная обработка естественного языка - Масато Хагивара
Обработка естественного языка в действии, второе издание - Хобсон -лейн и Мария Дишель

Библиотеки

Вернуться к вершине

Node.js и javaScript - node.js Libaries для NLP | Вернуться к вершине
- Twitter -Text - JavaScript реализация библиотеки текстовой обработки Twitter
- Knwl.js - процессор естественного языка в JS
- Retext - расширяемая система для анализа и манипулирования естественным языком
- Компромисс NLP - обработка естественного языка в браузере
- Естественный - общие объекты естественного языка для узлов
- Топл - инструмент аннотации на основе веб -сайта для обработки естественного языка (NLP)
- NLP.JS - библиотека NLP для строительства ботов
- Узел-квор-ответ-быстрый и готовый к производству вопрос, отвечающий на Distilbert in node.js
Python - библиотеки Python NLP | Вернуться к вершине
- Сентиментальные модели настроений yax для Spacy с использованием ONNX
- TextAttack - состязательные атаки, состязательное обучение и увеличение данных в NLP
- TextBlob - обеспечение согласованного API для погружения в задачи общего естественного языка (NLP). Стоит на гигантских плечах инструментария естественного языка (NLTK) и шаблона, и хорошо играет с обоими?
- Spacy - Промышленная сила NLP с питоном и цинтоном?
- Speedster - автоматически применяйте методы оптимизации SOTA для достижения максимального ускорения вывода на вашем оборудовании
  - Текст - NLP более высокого уровня, построенный на Spacy
- Gensim - Библиотека Python для проведения неконтролируемого семантического моделирования из простого текста?
- ScatterText - Библиотека Python для создания D3 Визуализации того, как язык отличается между корпусами
- Gluonnlp-инструментарий глубокого обучения для NLP, построенный на MXNet/Gluon, для прототипирования исследования и промышленного развертывания современных моделей на широком спектре задач NLP.
- Allennlp-исследовательская библиотека NLP, построенная на Pytorch, для разработки современных моделей глубокого обучения на широком спектре языковых задач.
- Pytorch -NLP - NLP Research Toolkit, предназначенный для поддержки быстрого прототипирования с лучшими погрузчиками данных, погрузчиками Word -Vect
- Rosetta - Инструменты обработки текста и обертки (например, vowpal wabbit)
- Pynlpl - библиотека обработки естественного языка Python. Библиотека NLP общего назначения для Python обрабатывает некоторые конкретные форматы, такие как модели языка ARPA, Moses Prasetables, выравнивания Giza ++.
- Foliapy - библиотека Python для работы с Folia, форматом XML для лингвистической аннотации.
- Pyss3 - Python Package, который реализует новую модель машинного обучения белой коробки для классификации текста, называемой SS3. Поскольку SS3 имеет возможность визуально объяснять свое обоснование, этот пакет также поставляется с простыми в использовании инструментов интерактивной визуализации (онлайн-демонстрации).
- JPTDP-инструментарий для совместного чартного (POS) и анализа зависимостей. JPTDP предоставляет предварительно обученные модели для 40+ языков.
- Bigartm - быстрая библиотека для моделирования темы
- Snips NLU - библиотека готовой производства для разбора намерений
- Chazutsu - библиотека для загрузки и анализа стандартных наборов данных NLP
- Формы слова - формы слов могут точно генерировать все возможные формы английского слова
- Многоязычное скрытое распределение дирихле (LDA) - многоязычный и расширяемый трубопровод для кластеризации документов
- Toolkit Natural Language (NLTK) - библиотека, содержащая широкий спектр функциональности NLP, поддерживая более 50 корпораций.
- NLP Architect-библиотека для изучения современных топологий и методов глубокого обучения для NLP и NLU
- FLAIR-очень простая структура для современного многоязычного NLP, построенного на Pytorch. Включает в себя Берт, Эльмо и Флэра встроения.
- Kashgari-Простая многоязычная многоязычная фреймворк NLP, способствующая керу, позволяет создавать ваши модели за 5 минут для распознавания именованных объектов (NER), частичного тега (POS) и задач классификации текста. Включает в себя встраивание BERT и Word2VEC.
- Ферма - быстрое и легкое обучение передачи для NLP. Уборка языковых моделей для отрасли. Сосредоточьтесь на ответе на вопросы.
- Haystack-сквозная структура Python для построения интерфейсов поиска естественного языка для данных. Использует трансформаторы и современный NLP. Поддерживает DPR, Elasticsearch, ModelHub's и многое другое!
- Rita DSL - DSL, свободно основанная на Ruta на Apache Uima. Позволяет определять языковые шаблоны (NLP на основе правил), которые затем переводятся в Spacy, или если вы предпочитаете меньше функций и легких - шаблонов режима.
- Трансформеры - обработка естественного языка для Tensorflow 2.0 и Pytorch.
- Токенизаторы - токенизаторы, оптимизированные для исследований и производства.
- Fairseq Facebook AI Research Реализации моделей SOTA SEQ2SEQ в Pytorch.
- corex_topic - иерархическое моделирование темы с минимальным знанием области
- Sockeye - Toolkit Trailkit Translation Neural Machine (NMT), который приводит к переводу Amazon.
- DL Translate - глубокая библиотека переводов на основе обучения для 50 языков, построенная на transformers и MBART Facebook.
- Жюри - Оценка выходов модели NLP, предлагающих различные автоматизированные метрики.
- Python-ucto-Обычный токенизатор на основе регулярного экспрессии Unicode для различных языков. Привязка Python с библиотекой C ++ поддерживает формат Folia.

C ++ - библиотеки C ++ | Вернуться к вершине
- INSNENT-библиотека нейронной сети для построения зависимых от экземпляра моделей NLP с динамическим пакетом без прокладки.
- Информация о извлечении информации MIT - инструменты CS, C ++ и Python для распознавания и извлечения именных объектов
- CRF ++ - Реализация условных случайных полей (CRF) для сегментирования/маркировки последовательных данных и других задач обработки естественного языка.
- CRFSuite - CRFSuite - это реализация условных случайных полей (CRFS) для маркировки последовательных данных.
- Счастчик BLLIP - синтаксический анализатор естественного языка BLLIP (также известный как анализатор Чарньак -Джонсона)
- Colibri-Core-библиотека C ++, инструменты командной строки и привязка Python для извлечения и работы с основными лингвистическими конструкциями, такими как N-граммы и Skipgrams, быстро и эффективно память.
- UCTO-Unicode-Aware регулярно-экспрессия на основе токенизатора для различных языков. Инструмент и библиотека C ++. Поддерживает формат Folia.
- Libfolia - C ++ Библиотека для формата Folia
- Frog - NLP Suite на основе памяти, разработанный для голландцев: POS Tagger, Lemmatiser, SARSER DEDINDIENT, NER, мелкий анализатор, морфологический анализатор.
- Meta - Meta: современный текстовый анализ - это инструментарий Data Sciences C ++, который облегчает добычу больших текстовых данных.
- Mecab (японский)
- Моисей
- Starspace-библиотека из Facebook для создания внедрений уровня уровня слова, уровня параграфа, уровня документа и для классификации текста
Java - Java NLP библиотеки | Вернуться к вершине
- Стэнфорд NLP
- Opennlp
- NLP4J
- Word2VEC в Java
- Реверберация веб-масштаба открытой информации
- OpenRegex Эффективный и гибкий язык регулярного выражения на основе токенов и двигатель.
- COGCOMPNLP - Основные библиотеки, разработанные в группе когнитивных вычислений в U U of Illinois.
- Mallet - машинное обучение для языкового инструментария - пакет для статистической обработки естественного языка, классификации документов, кластеризации, моделирования тем, извлечения информации и других приложений машинного обучения в текст.
- RDRPOSGAGGER - надежный инструментарий для тегов POS (как в Java, так и в Python) вместе с предварительно обученными моделями для 40+ языков.
Kotlin - Библиотеки Kotlin NLP | Вернуться к вершине
- Лингю библиотека обнаружения языка для котлин и Java, подходящая как для длинного, так и для короткого текста
- Kotidgy-генератор текстовых данных на основе индекса, написанный в Kotlin
Скала - библиотеки Scala NLP | Вернуться к вершине
- Саул - Библиотека для разработки систем НЛП, включая встроенные модули, такие как SRL, POS и т. Д.
- ATR4S-инструментарий с современными методами автоматического распознавания терминов.
- TM - реализация тематического моделирования на основе регуляризованного многоязычного PLSA.
- Word2Vec -Scala - интерфейс Scala к модели Word2VEC; Включает в себя операции на таких векторах, как дистанции слов и аналогию слова.
- EPIC - EPIC - это высокопроизводительный статистический анализатор, написанный в Scala, наряду с структурой для создания сложных структурированных моделей прогнозирования.
- Spark NLP - Spark NLP - это библиотека обработки естественного языка, созданная на вершине Apache Spark ML, которая обеспечивает простые, производительные и точные аннотации NLP для трубопроводов машинного обучения, которые легко масштабируются в распределенной среде.
R - R NLP Библиотеки | Вернуться к вершине
- Text2VEC - быстрая векторизация, моделирование тем, расстояния и перчаточные слова в R.
- WordVectors - пакет R для создания и изучения Word2VEC и других моделей встраивания слов
- Rmallet - R пакет для взаимодействия с инструментом машинного обучения Java Mallet
- DFR -Browser - создает визуализации D3 для просмотра тематических моделей текста в веб -браузере.
- DFRTOPICS - R Пакет для изучения тематических моделей текста.
- Sentiment_classifier - Классификация настроений с использованием слова Sense Sense и считывателя Wordnet
- JProcessing - Японские библиотеки обработки натуральных ландшаужеров с классификацией японских настроений
- CorporaExplorer - пакет R для динамического исследования текстовых коллекций
- TidyText - Text Maning с использованием Tidy Tools
- spacyr - r rabper to spacy nlp
- Взгляд задачи CRAN: обработка естественного языка
Clojure | Вернуться к вершине
- Clojure -Opennlp - обработка естественного языка в Clojure (OpenNLP)
- Инфекции-CLJ-Библиотека перегиба, подобных рельсам для Clojure и Clojurescript
- Postagga - библиотека для анализа естественного языка в Clojure и Clojurescript
Рубин | Вернуться к вершине
- Кевин Диас - коллекция библиотеки, инструменты и программное обеспечение с естественным языком (NLP)
- Практическая обработка естественного языка, выполненная в Ruby
Ржавчина | Вернуться к вершине
- Watchlang - библиотека признания естественного языка на основе триграмм
- Snips-Nlu-RS-библиотека готовой производства для разбора намерений
- Rust-Bert-готовые к использованию трубопроводов NLP и моделей на основе трансформаторов
NLP ++ - NLP ++ Language | Вернуться к вершине
- Расширение языка VSCODE - расширение языка NLP ++ для VSCODE
- NLP -двигатель - NLP ++ Engine для запуска кода NLP ++ на Linux, включая полный английский анализатор
- VisualText - домашняя страница для языка NLP ++
- NLP ++ Wiki - запись вики для языка NLP ++
Юлия | Вернуться к вершине
- Корпусные загрузки - различные погрузчики для различных корпораций NLP
- Языки - пакет для работы с человеческими языками
- TextAnalysis - пакет Julia для анализа текста
- TextModels - модели на основе нейронной сети для обработки естественного языка
- WordTokenizers - высокие токенизаторы производительности для обработки естественного языка и других связанных задач
- Word2VEC - интерфейс Julia к Word2VEC

Услуги

NLP как API с функциональностью более высокого уровня, такой как NER, тематическая теги и т. Д. Вернуться к вершине

WIT -AI - Интерфейс естественного языка для приложений и устройств
Понимание естественного языка IBM Watson - API и GitHub Demo
Amazon Inply - NLP и ML Suite охватывает наиболее распространенные задачи, такие как NER, теги и анализ настроений
Google Cloud Natural Language API - анализ синтаксиса, NER, анализ настроений и тегирование контента на не менее 9 языках включают английский и китайский (упрощенный и традиционный).
Параллельдоты - Анализ текстового анализа высокого уровня, от анализа настроений до анализа намерений
Microsoft Cognitive Service
Textrazor
Розетка
Тексталитическая обработка естественного языка в браузере с анализом настроений, извлечением сущности, тегом POS, частотами слов, моделированием тем, облакам слов и многом другом
NLP Cloud - модели Spacy NLP (пользовательские и предварительно обученные), которые обслуживали RESTFUL API для распознавания именованных объектов (NER), Tagging POS и многого другого.
Cloudmersive - Unified и Free API NLP, которые выполняют такие действия, как тегирование речи, перефразирование текста, языковой перевод/обнаружение и анализ предложений

Аннотация Инструменты

Ворота - Общая архитектура и текстовая инженерия - 15+ лет, бесплатный и открытый исходный код
Anafora-это бесплатный инструмент для необработанных текстовых аннотаций с открытым исходным кодом.
Brat - Brat Rapid Annotation Tool - это онлайн -среда для совместной текстовой аннотации
DOCCANO - DOCCANO бесплатный, с открытым исходным кодом и предоставляет функции аннотации для классификации текста, маркировки последовательности и последовательности в последовательности
Начало - платформа семантической аннотации, предлагающая интеллектуальную помощь и управление знаниями
Tagtog, Team -Pirst Web Tool, чтобы найти, создавать, поддерживать и обмениваться наборами данных - стоит $
Prodigy - это аннотационный инструмент, работающий на активном обучении, стоит $
LightTag - размещен и управляемый инструмент для аннотации текстовых аннотаций для команд, стоит $
RSTWEB - Местный или онлайн -инструмент с открытым исходным кодом для аннотаций дерева дискурсий
Gitdox - Инструмент аннотации сервера с открытым исходным кодом с управлением и проверкой версий GitHub для данных XML и совместных электронных таблиц сетки
Label Studio - Инструмент размещенного и управляемого текстового аннотации для команд, Freemium, стоит, стоит $
DataSaur поддерживает различные задачи NLP для отдельных или команд, Freemium на основе
Konfuzio-Team-Pirst House и на Prem Text, Image и PDF-аннотация
Ubiai-Легкий в использовании инструмент аннотации текстовых аннотаций для команд с самыми полными функциями автоматической аннотации. Поддерживает NER, классификацию отношений и документов, а также аннотация OCR для маркировки счета, стоит $
Шонья - Шонья - это бесплатная платформа аннотации данных с открытым исходным кодом с широкими разнообразиями системы управления уровнем организации и рабочего пространства. Шонья является агностиком, которые могут использоваться командами для аннотирования данных с различным уровнем проверки в масштабе.
Аннотация Лаборатория-Бесплатная платформа без код для текстовой аннотации и обучения/настройки модели DL. Задача поддержки для распознавания, классификации, классификации, извлечения и утверждения названных объектов Spark NLP. Неограниченная поддержка пользователей, команд, проектов, документов. Не Foss.
Flat-Flat-это веб-лингвистическая аннотационная среда, основанная на формате Folia, богатый формат на основе XML для лингвистической аннотации. Бесплатный и открытый исходный код.

Методы

Текст встраивания

Слово встраивание

Правило большого пальца: FASTTEXT >> GLOVE> WORD2VEC
Word2VEC - реализация - блог об объяснении
GLOVE - Блог Объединения
Fasttext - реализация - бумага - блог об объяснении

Слово предложения и языковой модели на основе моделей

Вернуться к вершине

ELMO - глубокие контекстуализированные представления слов - ПИТОРЧ ПЕРЕМЕНА
Ulmfit - Universal Language Model Fine Tuning для классификации текста Джереми Ховарда и Себастьяна Рудера
Предоставление - контролируемое изучение универсальных представлений о предложении из данных о естественном языке по Facebook
Cove - изучен в переводе: контекстуализированные векторы слов
Векторы парграфа - из распределенных представлений о предложениях и документах. Смотрите учебник DOC2VEC в Gensim
Sense2Vec - по словам смысла устранение неоднозначности
Пропустить векторы мысли - метод представления слов
Адаптивный скип -грамм - аналогичный подход, с адаптивными свойствами
Последовательность к последовательности обучения - векторы слов для машинного перевода

Ответ на вопрос и извлечение знаний

Вернуться к вершине

DRQA - Open Domain Вопрос Ответ на работу Facebook Исследования по данным Википедии
Document-QA-простое и эффективное понимание прочитанного с несколькими параграфами Allenai
Извлечение информации на основе шаблонов без шаблонов
Privee: архитектура для автоматического анализа политик конфиденциальности в Интернете

Наборы данных

Вернуться к вершине

NLP-датазиты отличная коллекция наборов данных NLP
Gensim -DATA - хранилище данных для предварительных моделей NLP и NLP Corpora.

Многоязычные фреймворки NLP

Вернуться к вершине

Udpipe-это тренировочный трубопровод для токенизации, тегов, лемматизации и анализа универсальных деревьев и других файлов conll-u. В основном написано в C ++, предлагает быстрое и надежное решение для многоязычной обработки NLP.
NLP-Cube: Трубопровод обработки естественного языка-разделение предложений, токенизация, лемматизация, часть речи и анализ зависимости. Новая платформа, написанная на Python с Dynet 2.0. Предлагает автономные (привязки CLI/Python) и функциональность сервера (REST API).
Uralicnlp - это библиотека NLP, в основном для многих находящихся под угрозой уральными языками, такими как сами -языки, языки Mordvin, Mari -языки, языки коми и так далее. Также поддерживаются некоторые непревзойденные языки, такие как финские, вместе с такими неохраняющими языками, как шведский и арабский. Uralicnlp может проводить морфологический анализ, генерацию, лемматизация и устранение неоднозначности.

НЛП на корейском языке

Вернуться к вершине

Библиотеки

Konlpy - пакет Python для корейской обработки естественного языка.
Mecab (корейский) - библиотека C ++ для корейской NLP
Koalanlp - библиотека Scala для корейской обработки естественного языка.
Konlp - R пакет для корейской обработки естественного языка

Блоги и учебные пособия

Блог Dsindex
Курс NLP в Университете Кангвонского университета в корейском языке

Наборы данных

KAIST CORPUS - Корпус из Кореи -передового института науки и техники в Корее.
Naver Sentiment Movie Corpus на корейском языке
Архив Chosun Ilbo - набор данных в Корее из одной из основных газет в Южной Корее, Chosun Ilbo.
Данные чата - данные чата на корейском языке
Петиции - Соберите данные ходатайства с истекшим сроком действия с национального сайта петиции Blue House.
Корейская параллельная корпорация - набор данных по переводу нейронной машины (NMT) для корейского на французский и корейский на английский язык
Korquad - Набор данных корейской команды с источником Wiki HTML. Упоминает как v1.0, так и v2.1 во время добавления в Awesome NLP

НЛП на арабском языке

Вернуться к вершине

Библиотеки

Goarabic - пакет Go для обработки арабского текста
JSastem - JavaScript для арабского Stemming
Pyarabic - библиотеки Python для арабского языка
Rftokenizer - тренировочный сегментер Python для арабского, иврита и коптского

Наборы данных

Многодоменные наборы данных - крупнейшие доступные многодоменные ресурсы для анализа арабских настроений
LABR - Набор данных обзоров крупных арабских книг
Арабские остановки - список арабских остатков из различных ресурсов

НЛП на китайском языке

Вернуться к вершине

Библиотеки

jieba - пакет Python для утилиты сегментации слов на китайском языке
Spearlp - Python Package для китайского NLP
Fudannlp - библиотека Java для китайской текстовой обработки
HANLP - многоязычная библиотека NLP

Антология

Funnlp - Сбор инструментов и ресурсов NLP в основном для китайцев

НЛП на немецком языке

Немецкий NLP-куратор с открытым доступом/открытым исходным кодом/готовыми ресурсами и инструментами разработаны с особым вниманием к немецким

НЛП на польском

Польский NLP - курированный список ресурсов, посвященных обработке естественного языка (NLP) в польском. Модели, инструменты, наборы данных.

НЛП на испанском

Вернуться к вершине

Библиотеки

SPANLP - Библиотека Python для обнаружения, цензуры и чистой ненормативной лексики, вульгарности, ненавистных слов, расизма, ксенофобии и издевательств в текстах, написанных на испанском языке. Он содержит данные 21 испаноязычных стран.

Данные

Колумбийские политические речи
Копенгаген деревобанк
Испанские миллиарды слов корпус с вставками Word2VEC
Компиляция испанских нездоровых корпораций

Слово и предложения встроены

Испанские встраивания слов, рассчитанные с разными методами и из разных корпораций
Испанские встраивания слов, рассчитанные из крупных корпораций и разных размеров с использованием быстрого текста
Испанские предложения встроены из крупных корпораций с использованием Sent2VEC
Бето - Берт для испанского

НЛП на индийских языках

Вернуться к вершине

Данные, корпуса и деревья

Деревозабои для зависимости хинди-многопрофессиональный многослойный дерево
Универсальные зависимости деревьев на хинди
- Параллельные универсальные зависимости деревобанк на хинди - меньшая часть вышеупомянутого дерева.
Список стоп -слов ISI (хинди и бангла)
Список стоп -слов Питера Грэма
NLTK Corpus 60K Слова POS Tagged, Bangla, хинди, маратхи, телугу
Набор данных по обзорам фильмов на хинди ~ 1K Образцы, 3 класса полярности
BBC News Hindi Dataset 4.3K Образцы, 14 классов
IIT Patna Hindi ABSA Dataset 5.4K Образцы, 12 доменов, 4K -аспекты, полярность аспекта и уровня предложения в 4 классах
Bangla Absa 5,5K Образцы, 2 домена, 10 аспектов
IIT Patna Review Review Datement Dataset 2K Образцы, 3 этикетки полярности

Корпуса/наборы данных, которые требуют входа/доступа, можно получить по электронной почте

SAIL 2015 Twitter и Facebook помечены образцами настроений на хинди, бенгальском, тамильском, телугу.
IIT Bombay NLP Resources SentiWordnet, фильмы и туризм Параллельный маркированный корпуса, полярность с надписью Sense Annoted Corpus, Marathi Polarity помечен Corpus.
TDIL-IC объединяет множество полезных ресурсов и предоставляет доступ к наборам данных в противном случае закрытые наборы данных

Языковые модели и встроения слов

Модель языков стиля Hindi2VEC и NLP-for-Hindi Ulmfit
IIT Patna двуязычное слово встраивание Hi-en
Фасттекстовое слово встраивание в целом кучу языков, обученное общему ползу
Хинди и бенгальское слово2VEC
Модель хинди и урду эльмо
Санскрит Альберт, обученный санскритской Википедии и Оскар Корпус

Библиотеки и инструменты

Многозадачный глубокий морфологический анализатор глубокий сетевой морфологический анализатор для хинди и урду
Anoop Kunchukuttan 18 языков, целый ряд функций от токенизации до перевода
Шиварендди -синтаксический анализатор зависимости и POS -метки для каннады, хинди и телугу. Python3 порт
Inltk - инструментарий естественного языка для индийских языков (индийские языки субконтинента), построенный на вершине Pytorch/Fastai, который направлен на предоставление поддержки ящиков для общих задач NLP.

НЛП в тайском языке

Вернуться к вершине

Библиотеки

Pythainlp - тайский NLP в пакете Python
JTCC - библиотека кластеров персонажей в Java
Cutkum - сегментация слова с глубоким обучением в Tensorflow
Thai Language Toolkit - на основе статьи Wirote Aroonmanakun в 2002 году с включенным набором данных
Synthai - сегментация слова и теги POS с использованием глубокого обучения в Python

Данные

Inter Best - текстовое корпус с 5 миллионами слов с сегментацией слов
Премьер -министр 29 - Набор данных, содержащий речи нынешнего премьер -министра Таиланда

НЛП на датском

Названное признание сущности для датского
Danlp - NLP Resources на датском
Потрясающий датский - куратор

НЛП на вьетнамском языке

Библиотеки

Underthesea - Вьетнамский инструментарий NLP
vn.vitk - вьетнамский инструментарий для обработки текста
Vncorenlp - вьетнамский инструментарий для обработки естественного языка
Phobert - предварительно обученные языковые модели для вьетнамцев
Pyvi - Python вьетнамский ядро NLP Toolkit

Данные

Вьетнамский деревобанк - 10 000 предложений для избирательного разбора задания
Bktreebank - Вьетнамский дерево именность деревьев
Ud_vietnamese - Вьетнамская универсальная зависимость
Vivos - бесплатный вьетнамский речевой корпус, состоящий из 15 часов записи речи Ailab
Vntqcorpus (Big) .txt - 1,75 миллиона предложений в новостях
Vitext2sql-набор данных для семантического анализа вьетнамского текста в SQL (выводы EMNLP-2020)
EVB Corpus-20 000 000 слов (20 миллионов) из 15 двуязычных книг, 100 параллельных английских вьетнамских / вьетнамских текстов, 250 параллельных текстов по закону и постановления, 5000 новостных статей и 2000 субтитров фильма.

НЛП для голландцев

Вернуться к вершине

Python -Frog - Python Binding с лягушкой, люкс NLP для голландцев. (POS -метка, лемматизация, анализ зависимости, NER)
SimpleNlg_NL - Голландский Surface Realiser, используемый для генерации естественного языка на голландском языке, на основе реализации Sommerlg для английского и французского языка.
Альпино - синтаксический анализатор зависимости для голландцев (также делает POS -метки и лемматизацию).
Калди Н.Л. - Голландские модели распознавания речи, основанные на Калди.
Spacy - голландская модель доступна. - Промышленная сила NLP с питоном и цинтоном.

НЛП на индонезийском языке

Наборы данных

Компания Kompas и Tempo в ILPS
PANL10N для POS Tagging: 39K предложения и токены 900K Word
IDN для тега POS: этот корпус содержит 10 тыс. ПРЕДЛОЖЕНИЕ И 250K TOKEN
Индонезийский деревобанк и универсальные зависимости-индонезийцы
Indosum для текстового обобщения и классификации оба
Wordnet -Bahasa - большой, свободный, семантический словарь
Indobenchmark Indonlu включает в себя предварительно обученную языковую модель (Indobert), модель Fasttext, Indo4b Corpus и несколько наборов данных NLU.

Библиотеки и встраивание

Натуральный язык инструментарий бахаса
Индонезийское слово встраивание
Предварительно проведенный индонезийский фантастический текст, встраиваемый в Википедию
Indobenchmark Indonlu включает в себя модель с предварительным языком (Indobert), модель Fasttext, Indo4b Corpus и несколько наборов данных NLU.

NLP в урду

Наборы данных

Сбор наборов данных урду для задач POS, NER и NLP

Библиотеки

Библиотека обработки естественного языка для (??) языка урду

НЛП на персидском языке

Вернуться к вершине

Библиотеки

HAZM - персидский инструментарий NLP.
Парсивар: инструментарий для обработки языка для персидского
Perke: Perke - это пакет извлечения ключей Python для персидского языка. Он обеспечивает сквозную конвейер извлечения ключевой фразы, в которой каждый компонент может быть легко изменен или расширен для разработки новых моделей.
Perstem: персидский ствол, морфологический анализатор, транзитор и частичная часть речи
Парсианализер: персидский анализатор Elasticsearch
Virastar: уборка персидского текста!

Наборы данных

Bijankhan Corpus: Bijanhhan Corpus - это тегированный корпус, который подходит для исследований по обработке естественного языка на персидском (фарси) языке. Эта коллекция собрана с ежедневных новостей и общих текстов. В этой коллекции все документы классифицируются на различные предметы, такие как политические, культурные и так далее. Полностью, есть 4300 различных предметов. Коллекция Биджанкхана содержит около 2,6 миллионов вручную с набором тегов, который содержит 40 персидских POS -тегов.
Упсала персидский корпус (UPC): Uppsala Persian Corpus (UPC) - большой, свободно доступный персидский корпус. Корпус является модифицированной версией корпуса Биджанкхана с дополнительной сегментацией предложения и последовательной токенизацией, содержащей 2 704 028 токенов и аннотированные с 31 частью речи. Теги части речи перечислены с объяснениями в этой таблице.
Large-Scale Colloquial Persian: Large Scale Colloquial Persian Dataset (LSCP) is hierarchically organized in asemantic taxonomy that focuses on multi-task informal Persian language understanding as a comprehensive problem. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.

NLP in Ukrainian

Back to Top

awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
UkrainianLT - another curated list with a focus on machine translation and speech processing

NLP in Hungarian

Back to Top

awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.

NLP in Portuguese

Back to Top

Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.

Other Languages

Russian: pymorphy2 - a good pos-tagger for Russian
Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew

Back to Top

Credits for initial curators and sources

Лицензия

License - CC0

Расширять

Дополнительная информация

Версия 1.0.0
Тип Другой исходный код
Время обновления 2025-04-15
размер 55.83KB
От Github

Связанные приложения

awesome citygml

2024-11-13
awesome generative ai guide

2024-11-05
GitHub sgrebnov/cordova plugin background download

2024-11-05
awesome swift

2024-11-03
Потрясающая игра про дьявола

2023-04-16
Потрясающая реклама

2022-08-08