Uma lista com curadoria de recursos para PNL (processamento de linguagem natural) para chinês
Informações relacionadas ao processamento de linguagem natural chinesa
A imagem é do professor Qiu Xipeng da Universidade Fudan

Thulac Chinese Lexical Analysis Toolkit por Tsinghua (C ++/Java/Python)
NLPIR pela Academia Chinesa de Ciências (Java)
Plataforma de tecnologia da linguagem LTP do Instituto de Tecnologia Harbin (C ++) Pylyp LTP Python Encapsulussulus
Fudannlp por Fudan (Java)
Baidulac da ferramenta de análise lexical de código aberto do Baidu para chinês, incluindo segmentação de palavras, marcação de parte da fala e reconhecimento de entidade nomeado.
Hanlp (Java)
FastnLP (Python) Um conjunto de processamento de NLP leve.
Biblioteca Python SNOWNLP (Python) para processamento de texto chinês
Yayanlp (Python) Pacote de processamento de linguagem natural chinês escrito em python puro, chamado "idioma yaya"
Xiao Ming NLP (Python) Ferramenta de processamento de linguagem natural chinesa leve
Deepnlp (Python) Deep Learning PIPELING PIPELOMENTO IMPLEMITADO NO TENSORFLOW com modelos chineses pré -treinados.
Chinês_nlp (C ++ e Python) Ferramentas e exemplos de processamento de linguagem natural chinesa
LightNLP (Python) Processamento de linguagem natural Estrutura de aprendizado profundo baseado em pytorch e tocha
ANOTADOR DE ANOTADOR DO CHINES
Poplar (TypeScript) Uma ferramenta de anotação baseada na Web para processamento de linguagem natural (PNL)
Jiagu (Python) Jiagu é baseado no BILSTM e em outros modelos e é treinado em corpus em larga escala. Ele fornecerá funções comuns de processamento de linguagem natural, como segmentação de palavras chinesas, anotação de parte da fala, reconhecimento de entidades de nomeação, análise de sentimentos, extração de relacionamento com gráfico de conhecimento, extração de palavras-chave, resumo do texto e nova descoberta de palavras.
SmoothNLP (Python & Java) Foco na tecnologia PNL interpretável
Tolnltk (python & java) um kit de ferramentas de linguagem da natureza chinesa
CORENLP POR STANFORD (Java) Um conjunto Java das ferramentas Core PNL.
Stanza de Stanford (Python) Uma biblioteca Python NLP para muitas línguas humanas
NLTK (python)
Spacy (Python) Processamento de linguagem natural de resistência industrial com um curso online
TEXTACY (Python) NLP, antes e depois do Spacy
OpenNLP (Java) Um kit de ferramentas baseado em aprendizado de máquina para o processamento do texto da linguagem natural.
Gensim (Python) Gensim é uma biblioteca Python para modelagem de tópicos, indexação de documentos e recuperação de similaridade com a grande empresa.
Kashgari-estrutura simples e poderosa do NLP, construa seu modelo de ponta em 5 minutos para tarefas de reconhecimento de entidade (NER), marcação de parte da fala (POS) e classificação de texto. Inclui Bert e Word2vec incorporados.
JIEBA PALAVRA PALAVRA CHINESSA (derivada de Python e um grande número de outras linguagens de programação) é o melhor componente de particípio da palavra chinês Python
A Ferramenta de Segmentação de Palavras Chinesas da Universidade de Pequim (Python) é uma ferramenta de segmentação de palavras chinesa altamente precisa que é simples e fácil de usar. Comparado com as ferramentas de código aberto existentes, ele melhora bastante a precisão da segmentação de palavras.
KCWS Aprendizagem profunda Palavra chinesa Particípio (Python) Bilstm+CRF e IDCNN+CRF
ID-CNN-CWS (Python) Iterado Convóluções dilatadas para segmentação de palavras chinesas
Genius Whine Word particípio (Python) O gênio é um componente de particípio de palavra chinês de código aberto python que usa o algoritmo de campo aleatório condicional de CRF (campo aleatório condicional).
Particípio chinês Loso (Python)
Yaha "口" particípio chinês (Python)
Algoritmo de segmentação de palavras chinesas (Python)
Vá segmentação de texto eficiente; Apoie em inglês, chinês, japonês e outro.
ANSJ Palavra chinesa Particípio (Java) Implementação Java do particípio de palavra chinês com base em n-gramas+crf+hmm
Mitie (C ++) Biblioteca e ferramentas para extração de informações
Idioma, mecanismo e ferramentas do patinho (Haskell) para expressar, testar e avaliar regras de idiomas composíveis sobre seqüências de contribuições.
O IEPY (Python) IEPY é uma ferramenta de código aberto para extração de informações focada na extração de relações.
Snorkel Um sistema de criação e gerenciamento de dados de treinamento focado na extração de informações
Extração de relação neural implementada com LSTM no tensorflow
Um modelo de rede neural para reconhecimento de entidade nomeado chinês
Bert-chinese-ir use modelo de idioma pré-treinado Bert para fazer o nerd chinês
Chineses de informação-extração-chinesa nomeada reconhecimento de entidades com IDCNN/BILSTM+CRF e extração de relação com BIGRU+2ATT Reconhecimento de entidades chinesas e extração de relações
Familia Um kit de ferramentas para modelagem de tópicos industriais produzida por Baidu
Classificação de texto Todos os tipos de modelos de classificação de texto e muito mais com aprendizado profundo. Use o ZHIHU Q&A como os dados do teste.
ComplexEventExtração O conceito e o padrão explícito dos eventos compostos chineses, incluindo eventos condicionais, eventos causais, eventos de acompanhamento, eventos de reversão e outra extração de eventos, e formam um mapa racional.
TexTrank4ZH extraia automaticamente palavras -chave e resumos do texto chinês
Rasa NLU (Python) transforma a linguagem natural em dados estruturados, um garfo chinês na Rasa Nlu Chi
Rasa Core (Python) Machine Learning Basey Diálogo Engine para software de conversação
Chatstack Uma interface do usuário completa para a construção do sistema NLU chinês
SNIPS NLU (Python) Snips NLU é uma biblioteca Python que permite analisar frases escritas em linguagem natural e extrair informações estruturadas.
Deeppavlov (Python) Uma biblioteca de código aberto para criar sistemas de diálogo de ponta a ponta e treinamento de chatbots.
Chatscript Natural Language Tool/Dialog Manager, um mecanismo de chatbot baseado em regras.
O ChatterBot (Python) Chatterbot é um mecanismo de diálogo de conversação, de aprendizado de máquina para criar bots de bate -papo.
Chatbot (Python) chatbot situacional com base na correspondência de vetores
O TIPASK (PHP) é um sistema de perguntas e respostas de PHP de código aberto desenvolvido com base na estrutura do Laravel, fácil de escalar, com forte capacidade de carga e estabilidade.
QuestionAnsweringsystem (Java) Um sistema de perguntas e respostas humano-computador de Java que pode analisar automaticamente perguntas e fornecer respostas aos candidatos.
QA-SNAKE (Python) Perguntas e perguntas e respostas automáticas com base em mecanismos de pesquisa múltipla e tecnologias de aprendizado profundo
Modelo de Chatbot de sequência à sequência implementada usando o tensorflow (python)
Sistema de Pergunta de Compreensão e Resposta à Leitura Chinesa (Python) Implementado pelo Algoritmo Deep Learning
Anyq by Baidu inclui principalmente uma estrutura de sistema de perguntas e respostas para coleções de perguntas frequentes e uma ferramenta de correspondência semântica de texto Simnet.
DUREADER CHINE LEITURA CÓDIGO DE LINHA DE BASEIRA DE LEITURA (Python)
Estrutura de robô automática baseada no SmartQQ (Python)
Qasystemonmedicalkg (python) Um gráfico de conhecimento centrado na doença para campos médicos e usa esse gráfico de conhecimento para concluir os serviços de perguntas e respostas automáticos e serviços de análise.
Modelo Gpt2-Chitchat (Python) GPT2 para chat chinês
O CDial-GPT (Python) fornece um conjunto de dados de diálogo chinês em larga escala e fornece um modelo de diálogo chinês (modelo GPT chinês) neste conjunto de dados
Openkg.cn
Esquema de mapa de conhecimento aberto aberto
Introdução à conta oficial de mapa conceitual chinês em larga escala CN-Probase
Download de código aberto em larga escala de 140 milhões de gráficos de conhecimento chineses
Recuperação de informações do gráfico do conhecimento agrícola, nomeado reconhecimento de entidades, extração de relacionamento, construção de árvores de classificação, mineração de dados no campo agrícola
Aliança de Recursos de Língua Chinesa do CLDC
DUMPO DE WIKIPEDIA CHINESSA
Estrutura de modelo pré-treinada chinesa baseada em diferentes corpus e modelos diferentes (como BERT e GPT), suporta modelos pré-treinados para diferentes tarefas de corpus, codificador e alvo (da RUC e Tencent)
OpenClap Multi-Domain Open Source Chinese Pré-treinado Modelo de Linguagem Repositório (de Tsinghua)
1998 Biblioteca de anotação parcial diária de pessoas @baidupan
Sogou 20061127 News Corpus (incluindo categorias) @ Baidu Pan
Udchinese (para treinamento de spacy pos)
Modelo Chinês Word2vec
Centenas de vetores de palavras chineses pré-treinados
Tencent AI Lab Incorporando Corpus para palavras e frases chinesas
Bert de pré-treinamento chinês com mascaramento de palavras inteiras
O código de treinamento chinês do GPT2 pode escrever poesia, notícias, romances ou treinar modelos de idiomas em geral.
A avaliação da Avaliação da Idioma Chinesa Referência Chinesa Inclui conjuntos de dados representativos, modelos de referência (pré -treinamento), corpus e classificações.
O banco de dados chinês de dicionário Xinhua inclui expressões idiomáticas, expressões idiomáticas, palavras e caracteres chineses.
Sinônimos: o kit de ferramentas de sinônimos chinês é baseado nos sinônimos do treinamento chinês e word2vec da Wikipedia e é encapsulado como um arquivo de pacote Python.
Chinês_conversation_sentiment Um conjunto de dados de sentimentos chineses pode ser útil para análise de sentimentos.
Corpus de emergência chinês
DGK_LOST_CONG CHINEIOGO CORPUS
Conjuntos de dados para treinamento do sistema de chatbot
Versão de Bagua da resposta chinesa
Corpus de bate -papo público chinês
Informações de anúncio do mercado de ações da China Crawling para obter o anúncio do mercado de ações da China (SZ, SH) do servidor da Juchao Network através de scripts Python (empresas listadas e agências reguladoras)
A interface de dados financeiros de Tushare é um pacote de interface de dados financeiros Python gratuito e de código aberto.
Conjuntos de dados de texto financeiro Smoothnlp Financial Text DataSets (público) DataSets Financeiros Públicos para Pesquisas de PNL
Corpus da indústria de seguros [52NLP Introdução ao blog] Opendata na área de seguro para tarefas de aprendizado de máquina
O banco de dados mais completo da poesia e letras chinesas antigas. Quase 14.000 poetas das dinastias Tang e Song, quase 55.000 poemas de Tang e 260.000 poemas de música. Havia 1.564 poetas na dinastia Song e 21.050 poemas.
Dados de compreensão de leitura chinesa Dureader
Pequenos dados do corpus chinês incluem alguns pequenos dados, como o reconhecimento chinês de entidade nomeado, reconhecimento de relacionamento chinês, compreensão de leitura chinesa, etc.
Literatura chinesa-ner-re-dataSet Um discurso nomeado de reconhecimento de entidade e dados de extração de relações para o texto da literatura chinesa
Projeto de inferência de texto chinês ChineSextualInference, incluindo a tradução e a construção de 880.000 conjuntos de dados contendo texto em texto que contêm texto e o modelo de julgamento contendo texto com base no aprendizado profundo.
A Wikipedia de Processamento de Língua Naturais de Língua Naturais em larga escala (Wiki2019ZH), News Corpus (News2016Zh), Enciclopédia Q&A (Baike2018QA)
Nome chinês Nome chinês, sobrenome, nome, nome, nome, nome japonês, nome de tradução, nome em inglês.
Nome da empresa, nome da organização Corpus Company Abreviação, abreviação, Word Word, Nome da empresa.
Várias implementações de filtragem sensível de palavras no banco de dados de palavras sensíveis a chinês + um determinado banco de dados de palavras sensíveis a palavras de palavra
Abreviação chinesa Um corpus de abreviação chinesa, incluindo formas completas negativas.
Materiais de pré -processamento de dados chineses Dicionário de Participlos de Palavra Chinesa e Palavras de Parada Chinesa
Han Dicionário Chinês
Sentibridge: A Base de Conhecimento Emocional da entidade chinesa descreve como as pessoas descrevem uma entidade, incluindo notícias, turismo e catering, um total de 300.000 pares.
OpenCorpus Uma coleção de corporativo disponível gratuitamente (chinês).
ANÁLISE DE PRONECIDADE DE VIENTE/COMENTÁRIO DE CHINESENLPCORPUS, Reconhecimento de entidades de nomeação chinesa, sistema de recomendação
FinancialDataSets Smootes de dados de texto financeiro (públicos) conjuntos de dados financeiros públicos apenas para pesquisas de PNL apenas
POPLES DIÁRIO DIÁRIO E CRIANÇAS PD & CFT: Um conjunto de dados de compreensão de leitura chinesa
Wiki chinês 230.000 entradas de alta qualidade - Atualizado para 23 de julho - Informações sensíveis ou controversas filtradas
Laboratório de Computação de Processamento e Humanidades de Linguagem Natural da Universidade de Tsinghua
Laboratório -chave do Ministério da Educação, Linguística Computacional, Universidade de Pequim
Grupo de Pesquisa de Processamento de Linguagem Natural, Instituto de Computação, Academia Chinesa de Ciências
Instituto Harbin de Tecnologia Tecnologia Inteligente e Laboratório de Processamento de Linguagem Natural
Centro de Pesquisa de Computação Social e Recuperação do Instituto de Tecnologia Harbin
Grupo de processamento de linguagem natural da Universidade Fudan
Grupo de processamento de linguagem natural da Universidade Soochow
Grupo de pesquisa de processamento de linguagem natural da Universidade de Nanjing
Laboratório de Processamento de Linguagem Natural da Universidade Nordeste
Laboratório de Processamento de Linguagem Natural, Departamento de Ciência e Tecnologia Inteligente, Universidade Xiamen
Laboratório de processamento de linguagem natural da Universidade de Zhengzhou
Instituto de Pesquisa da Microsoft de Processamento de Linguagem Natural da Ásia
Huawei Noah's Ark Laboratory
Grupo de Mineração de Texto CuHK
Grupo de Mineração de Mídia Social Polyu
Hkust Human Language Technology Center
Laboratório P com Universidade Nacional de Taiwan
Sociedade da Informação Chinesa
Conferências principais da calendário da PNL, periódicos, oficinas e tarefas compartilhadas na comunidade da PNL.
2017 A primeira avaliação de compreensão de leitura de máquina chinesa "IFLYING"
2017 Imagem do desafio AI Descrição chinesa descreve as principais informações em uma determinada imagem em uma frase, desafiando o problema da compreensão da imagem no contexto chinês.
2017 A IA Chavenger Inglês Chinese Tradução de texto usa dados em larga escala para melhorar os recursos dos modelos de tradução de máquina de texto em inglês-chineses.
O Desafio de Aprendizado de Machine Zhihu Kanshan Cup 2017 treina um modelo que rotula automaticamente dados não marcados com base nos dados de treinamento da relação de ligação dos problemas apresentados por Zhihu e as tags de tópico.
2018 Perguntas e respostas chinesas Tarefa em domínio aberto para uma determinada pergunta chinesa, o sistema de perguntas e respostas seleciona várias entidades ou valores de atributo de uma determinada base de conhecimento como resposta para a pergunta.
2018 Webank Intelligent Atendimento ao cliente Perguntas correspondentes A competição corresponde às perguntas do corpus de atendimento ao cliente real em chinês; Dadas duas frases, determine se as intenções dos dois são semelhantes.
O Huawei Cloud NLP é um serviço em nuvem para análise de texto e mineração fornecida por várias empresas e desenvolvedores, com o objetivo de ajudar os usuários a processar o texto com eficiência.
O Baidu Cloud NLP fornece tecnologia de processamento de linguagem natural líder do setor, fornecendo processamento de texto de alta qualidade e compreensão da tecnologia
O Alibaba Cloud NLP fornece ferramentas principais para análise de texto e mineração para todos os tipos de empresas e desenvolvedores
O Tencent Cloud NLP é baseado em sistemas de computação paralela e rastreamento distribuído, combinados com tecnologia de análise semântica exclusiva, e atende à PNL, transcodificação, extração, rastejamento de dados e outras necessidades em uma parada.
Iflytek Plataforma aberta com interação de voz como a plataforma aberta da Inteligência Artificial Core
Particípio da palavra do laboratório SOGOU e anotação de parte da fala
Bosen Data Shanghai Bosen Data Technology Co., Ltd. Concentra -se na tecnologia de análise semântica chinesa
Yunfu Technology NLP Toolkit, gráfico de conhecimento, mineração de texto, sistema de diálogo, análise de opinião pública, etc.
A tecnologia Zhiyan se concentra em avanços na tecnologia profunda de aprendizado e conhecimento de conhecimento
A tecnologia Zhuiyi se concentra no aprendizado profundo e no processamento de linguagem natural
Livro de aprendizado profundo chinês
Stanford CS224N Processamento de linguagem natural com Deep Learning 2017
Oxford CS Deepnlp 2017
[Materiais do curso para Georgia Tech CS 4650 e 7650, "Linguagem Natural"] (https://github.com/jacobeisenstein/gt-nlp-class)
Processamento de fala e linguagem de Dan Jurafsky e James H. Martin
52NLP Eu amo processamento de linguagem natural
Fazenda de Código Hankcs
Processamento de texto Materiais práticos do curso Processamento de texto Os materiais práticos do curso incluem extração de recursos de texto (TF-IDF), classificação de texto, agrupamento de texto, Word2vec Training Word Vector e Sinônimo de Word Floresta Cálculo de similaridade de palavras chinesas, resumo automático de documentos, extração de informações, análise de sentimentos e mineração de opinião e outros experimentos.
NLP_TASKS Tarefas de processamento de linguagem natural e referências selecionadas
Introdução à pesquisa da PNL da professora da Universidade de Tsinghua Liu Zhiyuan
Tarefas compartilhadas da PNL chinesa, conjuntos de dados e resultados de última geração para o processamento de linguagem natural chinesa