Кураторный список ресурсов для NLP (обработка естественного языка) для китайцев
Информация о обработке естественного языка Китая
Картина от профессора Цю Сипенг из Университета Фудана

Thulac Китайский лексический анализ инструментарий Tsinghua (C ++/Java/Python)
Нлпир от китайской академии наук (Java)
LTP -языковая технологическая платформа от Harbin Института технологий (C ++) Pylyp LTP Python Encapsulation
Fudannlp от Fudan (Java)
Baidulac от Lexical Analysis Intool для китайцев с открытым исходным кодом для китайцев, включая сегментацию слов, тегинги и распознавание объектов, названное.
Hanlp (Java)
FASTNLP (Python) легкий набор обработки NLP.
Snowownlp (Python) библиотека Python для обработки китайского текста
Yayanlp (Python) Пакет китайского обработки естественного языка, написанный в Pure Python, названный «Язык Yaya»
Сяо Мин Нлп (Python) Легкий китайский инструмент обработки естественного языка
DeepNLP (Python) Deep Learning NLP Pipeline, реализованный на Tensorflow с предварительно проведенными китайскими моделями.
Китайский_nlp (c ++ и python) Инструменты и примеры обработки естественного языка китайский язык
Lightnlp (Python) Обработка естественного языка Глубокое обучение на основе Pytorch и Torchtext
Аннотатор китайского аноматора (Python) для китайского текстового инструмента китайского текстового аннотатора
Топлар (TypeScript) Инструмент аннотации на основе веб-сайта для обработки естественного языка (NLP)
Jiaga (Python) Jiagu основан на Bilstm и других моделях и обучается на крупномасштабном корпусе. Он предоставит общие функции обработки естественного языка, такие как сегментация китайского слова, аннотация части речи, распознавание сущности, анализ настроений, извлечение отношений графа знаний, извлечение ключевых слов, краткое изложение текста и новое обнаружение слова.
SmoothNLP (Python & Java) фокус на интерпретируемой технологии NLP
Boolnltk (Python & Java) Инструментарий китайского языка на природе
Corenlp от Stanford (Java) A Java Suite of Core NLP инструментов.
Stanza от Стэнфорда (Python) Библиотека NLP Python для многих человеческих языков
Nltk (python) натуральный язык инструментарий
Spacy (Python) промышленная промышленная обработка естественного языка с помощью онлайн-курса
Текстость (Python) NLP, до и после Spacy
OpenNLP (java) Инструментарий на основе машинного обучения для обработки текста естественного языка.
Gensim (Python) Gensim - это библиотека Python для моделирования тем, индексацию документов и поиск сходства с крупной корпорацией.
Kashgari-Простая и мощная структура NLP, создайте свою современную модель за 5 минут для распознавания именованных объектов (NER), частей речи (POS) и задач классификации текста. Включает в себя встроенные Bert и Word2VEC.
Причастие китайского слова Jieba (получено Python и большое количество других языков программирования) является лучшим компонентом причастию китайского слова Python
Инструмент сегментации слов китайского университета Пекинга (Python) - это очень точный инструмент сегментации слов китайского слова, который прост и прост в использовании. По сравнению с существующими инструментами с открытым исходным кодом, это значительно повышает точность сегментации слов.
KCWS Deep Learning китайское слово причастие (Python) Bilstm+CRF и Idcnn+CRF
ID-CNN-CWS (Python) итерационные расширенные свертывания для сегментации китайского слова
Гениальное китайское слово причастие (Python) - это компонент Python Python Word Word Python с открытым исходным кодом, который использует условное алгоритм случайного поля CRF (условное случайное поле).
Причастие в китайском языке (Python)
Yaha "口" Китайское причастие (Python)
Алгоритм сегментации китайских слов в китайском языке (Python) без корпуса
Эффективно сегментация текста; Поддержка английского, китайского, японского и других.
ANSJ Китайское слово причастие (Java) Java Реализация причастия китайского слова на основе N-Gram+CRF+HMM
Библиотека MITIE (C ++) и инструменты для извлечения информации
Утенка (Haskell) язык, двигатель и инструменты для выражения, тестирования и оценки композиционных языковых правил на строках ввода.
IEPY (Python) IEPY - это инструмент с открытым исходным кодом для извлечения информации, сфокусированный на извлечении отношений.
Snorkel. Система создания и управления данными обучения ориентирована на извлечение информации
Извлечение нейронных отношений, внедренное с помощью LSTM в Tensorflow
Модель нейронной сети для китайского названного признания организации
Bert-Chinese-ner Используйте предварительно обученную языковую модель BERT, чтобы сделать китайский NER
Информация-экспрессия китайцев китайцы с именем признания сущности с помощью IDCNN/Bilstm+CRF и извлечение отношений с помощью признания и извлечения отношений китайских объектов BIGRU+2ATT китайского языка.
Familia a Toolkit для промышленного моделирования темы, производимого Baidu
Текстовая классификация Все виды моделей Text Classificaiton и больше с глубоким обучением. Используйте Zhihu Q & A в качестве тестовых данных.
ComplexEventExtraction Концепция и явная модель китайских составных событий, включая условные события, причинные события, последующие события, события разворота и другие события, и образуют рациональную карту.
Textrank4ZH автоматически извлекат ключевые слова и рефераты из китайского текста
Rasa Nlu (Python) превращает естественный язык в структурированные данные, китайская вилка в Rasa nlu Chi
RASA CORE (Python) Двигатель диалога на основе разговорного программного обеспечения для разговорного программного обеспечения
CHATSTACK Полный пользовательский интерфейс для строительства китайской системы NLU
Snips NLU (Python) Snips NLU - это библиотека Python, которая позволяет анализировать предложения, написанные на естественном языке и извлекать структурированную информацию.
Deeppavlov (Python) Библиотека с открытым исходным кодом для создания сквозных диалоговых систем и обучающих чат-ботов.
Инструмент на естественном языке/диалоговое управление Chatscript, двигатель чат-ботов на основе правил.
Chatterbot (Python) Chatterbot - это машинный обучение, разговорной диалоговый двигатель для создания ботов в чате.
Чатбот (Python) ситуационный чат -бот на основе векторного сопоставления
Tipask (PHP) - это система вопросов и ответов с открытым исходным кодом, разработанная на основе структуры Laravel, простых в масштабе, с сильной грузоподъемностью и стабильностью.
ВОПРОССВАРИТЕЛЬНАЯ СИСТЕМА (JAVA) Система вопросов и ответов с человеком-компьютером, вызванной Java, которая может автоматически анализировать вопросы и дать кандидатам ответы.
QA-Snake (Python) Автоматические вопросы и ответы на основе нескольких исследований и технологий глубокого обучения
Модель последовательности чат -бота для последовательности, реализованной с использованием TensorFlow (Python)
Китайская система понимания и ответов (Python), реализованная алгоритмом глубокого обучения
Anyq By Baidu в основном включает в себя системную структуру вопросов и ответов для коллекций FAQ и инструмента Semantic Semantic Matching Simnet.
Базовый код понимания прочитанного в китайском языке (Python)
Автоматическая структура роботов на основе SmartQQ (Python)
Qasystemonmedicalkg (Python) График знаний, ориентированного на болезнь, для медицинских областей и использует этот график знаний для завершения автоматических вопросов и ответов и аналитических услуг.
Модель GPT2-CHITCHAT (Python) GPT2 для китайского чата
CDIAL-GPT (Python) предоставляет крупномасштабный набор данных по китайским диалогам и предоставляет предварительную модель китайского диалога (китайская модель GPT) в этом наборе данных
Openkg.cn
Открытая схема карты знаний в Китае
Крупномасштабная китайская концепт-карта CN-Probase Официальная учетная запись введение
Крупномасштабная загрузка с открытым исходным кодом 140 миллионов китайских графиков знаний
Поиск информации о графе сельскохозяйственных знаний, распознавание сущности, извлечение отношений, строительство дерева классификации, интеллектуальный анализ данных в сельскохозяйственной области
CLDC Альянс ресурсов китайского языка
Китайская свалка Википедии
Китайская предварительно обученная модельная структура, основанная на различных моделях корпуса и различных моделей (таких как BERT и GPT), поддерживает предварительно обученные модели для различных задач корпуса, кодера и целевых (от RUC и Tencent)
OpenClap Multi-Domain с открытым исходным кодом Китайский предварительно обученный языковой репозиторий (от Tsinghua)
Библиотека ежедневных частичных аннотаций 1998 года @baidupan
Sogou 20061127 News Corpus (включая категории) @ Baidu Pan
Удхинский (для обучения Spacy POS)
Китайская модель Word2VEC
Сотни предварительно обученных китайских векторов слов
Tencent AI Lab Embeding Corpus для китайских слов и фраз
Китайская предварительная тренировка Берта с маскированием всего слов
Китайский код обучения GPT2 может писать стихи, новости, романы или обучать общие языковые модели.
Клажаный язык, понимающий оценку китайского языка, включает в себя репрезентативные наборы данных, контрольные (предварительные) модели, корпус и рейтинги.
Китайская база данных Синьхуа включает в себя идиомы, идиомы, слова и китайские иероглифы.
Синонимы: Инструментарий китайских синонимов основан на синонимах обучения Wikipedia китайского и Word2VEC и инкапсулируется в виде файла пакета Python.
CINKING_CONVERSATION_SENTIMT Набор данных китайского настроения может быть полезен для анализа настроений.
Китайский экстренный корпус
DGK_LOST_CONV Китайский диалог Корпус
Наборы данных для обучения системы чат -ботов
Багуа версия китайского ответа
Китайский общественный чат корпус
Информация о объявлении фондового рынка Китая, чтобы получить объявление фондового рынка Китая (SZ, SH) от сервера сети Juchao через сценарии Python (перечисленные компании и регулирующие органы)
Tushare Financial Data Interface Tushare - это бесплатный пакет интерфейса финансовых данных Python с открытым исходным кодом.
Наборы данных финансового текста SmoothNLP Financial Text Dataets (Public) Общественные финансовые наборы данных для исследований НЛП
Страховая индустрия корпус [52NLP Введение в блог] Opendata в области страхования для задач машинного обучения
Самая полная база данных древней китайской поэзии и текстов. Почти 14 000 поэтов династий Тан и Сун, почти 55 000 стихотворений Тан и 260 000 стихов песен. В династии Сун было 1564 поэта и 21 050 стихотворений.
Данные о понимании прочитанного в китайском языке
Небольшие данные китайского корпуса включают в себя некоторые небольшие данные, такие как признание китайской именной организации, распознавание отношений Китая, понимание прочитанного в Китае и т. Д.
Китай-литература-зановый-ре-реатасет Набор данных по признанию и извлечению отношений на уровне дискурса для китайской литературы текст
ChinesetextualInference Китайский текстовый проект текста, включая перевод и строительство 880 000 текстосодержащих китайские наборы данных, и текстосодержащая модель суждения, основанную на глубоком обучении.
Крупномасштабная китайская обработка естественного языка Корпус Википедия (Wiki2019ZH), News Corpus (News2016ZH), Q & A Encyclopedia (Baike2018QA)
Китайское имя корпус китайское имя, фамилия, имя, имя, имя, японское имя, имя перевода, английское имя.
Название компании, название организации Corpus Компания Сокращение, аббревиатура, бренд Word, название предприятия.
Несколько реализаций конфиденциальной фильтрации слов в китайской базе данных, конфиденциальной Word + определенная чувствительная к слову 1W базу данных Word
Китайская аббревиатура Корпус китайского аббревиатуры, включая негативные полные формы.
Китайские данные предварительно обрабатывают материалы китайский словарь причастием и китайский
Ханьский китайский словарь
Pretibridge: база эмоциональных знаний китайской сущности описывает, как люди описывают сущность, включая новости, туризм и питание, в общей сложности 300 000 пар.
OpenCorpus Коллекция свободно доступных (китайских) корпоративных.
Chinesenlpcorpus Эмоциональная/точка зрения/анализ просмотров/комментарий, распознавание сущности китайского именования, система рекомендаций
FinancialDatasets SmoothNLP Financial Text Dataets (Public) Общественные финансовые наборы данных только для исследований НЛП
People's Daily & Children's Fairy Tale PD & CFT: китайский набор данных по пониманию прочитанного
Китайская вики 230 000 Высококачественные записи - обновлены до 23 июля - отфильтрованная чувствительная или спорная информация
Лаборатория обработки естественных языков и гуманитарных наук Университета Цинхуа
Ключевая лаборатория Министерства образования, вычислительной лингвистики, Пекинского университета
Исследовательская группа по обработке естественного языка, Институт компьютерных наук, Китайская академия наук
Институт технологических технологий Харбина Интеллектуальные технологии и лаборатория обработки естественного языка
Технологический институт Харбина социальные вычисления и исследовательский центр поиска информации
Группа обработки естественного языка в университете Фудана
Группа обработки естественного языка Университета Суочоу
Исследовательская группа по обработке естественного языка Университета Нанкин
Лаборатория обработки естественного языка северо -восточного университета
Лаборатория обработки естественного языка, факультет интеллектуальной науки и техники, Университет Сямэнь
Лаборатория обработки естественного языка Университета Чжэнчжоу
Microsoft Research Institute of Asia Natural Language Обработка
Лаборатория ARK Huawei Noah
CuHK Text Mining Group
Polyu в социальных сетях Группа
Hkust Human Language Center
Национальный Тайваньский университет NLP Lab
Китайское информационное общество
НЛП конференция календаря основные конференции, журналы, семинары и общие задачи в сообществе НЛП.
2017 Первая оценка понимания прочитанного машины "Iflying Cup"
Изображение AI-Challenger 2017 Описание Китайское описание описывает основную информацию в данном изображении в одном предложении, бросая вызов проблеме понимания изображения в китайском контексте.
Англино-китайский текстовый трансляция в 2017 году.
Зарегистрированная задача Machine Learning Cup Cup 2017 года обучает модель, которая автоматически помечает немеченые данные на основе обучающих данных о взаимосвязи связывания проблем, заданных Zhihu, и тематических тегов.
Задача в китайском вопросе и ответе 2018 года В открытом домене. Для данного китайского вопроса система Q & A выбирает несколько объектов или значения атрибутов из данной базы знаний в качестве ответа на вопрос.
2018 Webank Intelligent Service Service Mosgity Matching конкуренция сопоставляет вопросы о реальном корпусе обслуживания клиентов на китайском языке; Учитывая два предложения, определите, похожи ли намерения двух.
Huawei Cloud NLP - это облачный сервис для анализа текста и добычи, предоставляемых различными предприятиями и разработчиками, стремясь помочь пользователям эффективно обрабатывать текст.
Baidu Cloud NLP обеспечивает ведущую в отрасли технологии обработки естественного языка, обеспечивая высококачественную текстовую обработку и понимание технологий
Alibaba Cloud NLP предоставляет основные инструменты для анализа текста и добычи для всех видов предприятий и разработчиков
Tencent Cloud NLP основан на параллельных вычислениях и распределенных системах ползания в сочетании с уникальной технологией семантического анализа и соответствует NLP, транскодированию, экстракции, ползунию данных и другим потребностям за одну остановку.
Открытая платформа Iflytek с голосовым взаимодействием в качестве основного искусственного интеллекта Open Platform
Лабораторное слово Sogou и аннотация части речи
Bosen Data Shanghai Besen Data Technology Co., Ltd. фокусируется на технологии китайского семантического анализа
Технология Yunfu Technology NLP Toolkit, График знаний, добыча текста, система диалога, анализ общественного мнения и т. Д.
Технология Zhiyan фокусируется на прорывах в технологии глубокого обучения и знаний.
Технология Zhuiyi фокусируется на глубоком обучении и обработке естественного языка
Китайская книга глубокого обучения
Стэнфордский CS224N Обработка естественного языка с глубоким обучением 2017
Oxford CS Deepnlp 2017
[Материалы курса для Georgia Tech CS 4650 и 7650, "Natural Language"] (https://github.com/jacobeisenstein/gt-nlp-class)
Обработка речи и языка Дэна Джурафски и Джеймса Х. Мартина
52NLP Я люблю обработку естественного языка
HANKCS CODE FARM
Текстовая обработка практическая материалы курса Текст обработка практические материалы курса включают извлечение текстовых функций (TF-IDF), текстовую классификацию, кластеризацию текста, Word2VEC Training Word Vector и синоним Word Forest Word Saulting, автоматическое краткое изложение документов, извлечение информации, анализ настроений и добыча мнений и другие эксперименты.
NLP_TASKS Задачи обработки естественного языка и выбранные ссылки
Введение в исследование НЛП от преподавателя университета Цинхуа Лю Чжиюан
Китайские общие задачи NLP, наборы данных и современные результаты для обработки естественного языка китайского языка