Une liste organisée de ressources pour la PNL (traitement du langage naturel) pour chinois
Traitement du langage naturel chinois Informations liées
L'image provient du professeur Qiu Xipeng de l'Université Fudan

Thulac Chinese Lexical Analysis Toolkit par Tsinghua (C ++ / Java / Python)
NLPIR de l'Académie chinoise des sciences (Java)
LTP Language Technology Platform by Harbin Institute of Technology (C ++) pylyp LTP Python Encapsulation
Fudannlp par Fudan (Java)
Baidulac par l'outil d'analyse lexicale à source ouverte de Baidu pour le chinois, y compris la segmentation des mots, le marquage d'une partie du discours et la reconnaissance des entités nommées.
Hanlp (java)
FastNLP (Python) Une suite de traitement NLP légère.
Snownlp (Python) Python Library pour le traitement du texte chinois
Yayanlp (Python) Package de traitement du langage naturel chinois écrit en pur python, nommé "Langue Yaya"
Xiao ming nlp (python) outil de traitement du langage naturel chinois léger
DeepnLP (Python) Deep Learning NLP Pipeline implémenté sur TensorFlow avec des modèles chinois pré-étendus.
chinois_nlp (C ++ & Python) Outils et exemples de traitement du langage naturel chinois
Lightnlp (Python) Traitement du langage naturel Frame-apprentissage en profondeur basée sur Pytorch et TorchText
Annotator chinois-annotateur (Python) pour l'outil d'annotateur de texte chinois de texte chinois
Poplar (TypeScript) Un outil d'annotation Web pour le traitement du langage naturel (NLP)
Jiagu (Python) Jiagu est basé sur Bilstm et d'autres modèles et est formé sur un corpus à grande échelle. Il fournira des fonctions de traitement du langage naturel communes telles que la segmentation chinoise des mots, l'annotation d'une partie du discours, la reconnaissance des entités de dénomination, l'analyse des sentiments, l'extraction de la relation du graphique des connaissances, l'extraction des mots clés, le résumé du texte et la découverte de nouveaux mots.
SmoothNLP (Python & Java) se concentre sur la technologie NLP interprétable
Foolnltk (Python & Java) Une boîte à outils de langue de la nature chinoise
Corenlp par Stanford (Java) Une suite Java d'outils NLP de base.
Stanza par Stanford (Python) Une bibliothèque Python NLP pour de nombreuses langues humaines
NLTK (Python) Langue naturelle Toolkit
Spacy (Python) Traitement du langage naturel de force industrielle avec un cours en ligne
Texty (Python) NLP, avant et après Spacy
OpenNLP (Java) Une boîte à outils basée sur l'apprentissage automatique pour le traitement du texte du langage naturel.
Gensim (Python) Gensim est une bibliothèque Python pour la modélisation des sujets, l'indexation des documents et la récupération de similitude avec les grandes entreprises.
Kashgari - Framework NLP simple et puissant, construisez votre modèle de pointe en 5 minutes pour la reconnaissance de l'entité nommée (NER), le taggage de dis-de-par-de-parole (POS) et les tâches de classification de texte. Comprend Bert et Word2Vec intégrés.
Jieba Chinese Word Participle (dérivé par Python et un grand nombre d'autres langages de programmation) est le meilleur composant de participe de mot chinois Python
L'outil de segmentation des mots chinois de l'Université de Pékin (Python) est un outil de segmentation des mots chinois très précis qui est simple et facile à utiliser. Par rapport aux outils open source existants, il améliore considérablement la précision de la segmentation des mots.
KCWS Deep Learning Chinese Word participe (Python) Bilstm + CRF et IDCNN + CRF
ID-CNN-CWS (Python) Convolutions dilatées itérées pour la segmentation des mots chinois
Genius Chinese Word participe (Python) Genius est un composant de participe de mot chinois Python open source qui utilise un algorithme de champ aléatoire conditionnel CRF (champ aléatoire conditionnel).
participe chinois loso (Python)
Yaha "口" "participe chinois (Python)
Algorithme de segmentation des mots chinois chinois sans corpus
Aller une segmentation textuelle efficace; Soutenez l'anglais, le chinois, le japonais et autres.
ANSJ Chinese Word participe (Java) Implémentation Java du participe de mot chinois basé sur N-gram + CRF + Hmm
Bibliothèque MITIE (C ++) et outils pour l'extraction d'informations
Langue, moteur et outillage de Duckling (Haskell) pour exprimer, tester et évaluer les règles de langage composables sur les chaînes d'entrée.
Iepy (python) iepy est un outil open source pour l'extraction d'informations axé sur l'extraction des relations.
Sploire un système de création et de gestion de données de formation axés sur l'extraction d'informations
Extraction de relation neuronale mise en œuvre avec LSTM dans TensorFlow
Un modèle de réseau neuronal pour la reconnaissance des entités nommées chinoises
Modèle de langue pré-formé Bert-chinois Bert pour faire du chinois NER
Information-Extraction chinois chinois Nommé Reconnaissance d'entités avec IDCNN / BILSTM + CRF, et extraction de relation avec la reconnaissance et l'extraction de la relation chinoises de Bigru + 2AT
Familia une boîte à outils pour la modélisation des sujets industriels produits par Baidu
Classification du texte Toutes sortes de modèles de classificait de texte et plus encore avec l'apprentissage en profondeur. Utilisez Zhihu Q&A comme données de test.
ComplexEventExtraction Le concept et le schéma explicite des événements composés chinois, y compris les événements conditionnels, les événements causaux, les événements de suivi, les événements d'inversion et d'autres extractions d'événements, et forment une carte rationnelle.
TextRank4ZH extrait automatiquement les mots clés et les résumés du texte chinois
Rasa nlu (python) transforme le langage naturel en données structurées, une fourche chinoise à rasa nlu chi
RASA Core (Python) Machine Learning Based Dialog Engine pour le logiciel conversationnel
Chatstack Une interface utilisateur complète pour la construction du système NLU chinois
Snips NLU (Python) Snips NLU est une bibliothèque Python qui permet d'analyser les phrases écrites en langage naturel et extrait des informations structurées.
Deeppavlov (Python) Une bibliothèque open source pour construire des systèmes de dialogue de bout en bout et des chatbots de formation.
Tool / Dialog Manager de ChatScript Natural Language, un moteur de chatbot basé sur des règles.
Chatterbot (Python) Chatterbot est un moteur de dialogue conversationnel d'apprentissage automatique pour la création de robots de chat.
Chatbot (python) Chatbot situationnel basé sur la correspondance vectorielle
Tipask (PHP) est un système de questions et réponses de PHP open source développé sur la base du cadre Laravel, facile à échelle, avec une forte capacité de charge et une stabilité.
Questionansweringsystem (Java) Un système de questions et réponses de l'ordinateur humain implémenté Java qui peut analyser automatiquement les questions et donner des réponses aux candidats.
QA-Snake (Python) Q&R automatique basée sur des moteurs multi-recherches et des technologies d'apprentissage en profondeur
Modèle de séquence à chatbot à la séquence implémenté à l'aide de TensorFlow (Python)
Système de questions et réponses de compréhension de la lecture chinoise (Python) implémentés par un algorithme d'apprentissage en profondeur
Anyq by baidu comprend principalement un cadre système de questions et réponses pour les collections FAQ et un outil de correspondance sémantique texte SIMNET.
DureReader Chinese Reading Comprehension Baseline Code (Python)
Framework robot automatique basé sur SmartQQ (Python)
QasystemonMedicalkg (Python) Un graphique de connaissances centré sur la maladie pour les champs médicaux, et utilise ce graphique de connaissances pour compléter les services de Q&R et d'analyse automatiques.
Modèle GPT2-Chitchat (Python) GPT2 pour le chat chinois
CDIAL-GPT (Python) fournit un ensemble de données de dialogue chinois à grande échelle et fournit un modèle pré-formé de dialogue chinois (modèle GPT chinois) sur cet ensemble de données
Openkg.cn
Schéma de carte de connaissances chinois ouvrir
Carte conceptuelle chinoise à grande échelle CN-Prorobase Compte Introduction
Téléchargement open source à grande échelle de 140 millions de connaissances chinoises
Connaissances agricoles Graphiques Responsable de l'information, reconnaissance de l'entité nommée, extraction relationnelle, construction d'arbres de classification, exploration de données dans le domaine agricole
CLDC Alliance des ressources en langue chinoise
Décharge de wikipedia chinois
Framework de modèle pré-formé chinois basé sur différents corpus et différents modèles (tels que Bert et GPT), prend en charge les modèles pré-formés pour différents corpus, codeur et tâches cibles (de RUC et Tencent)
OpenClap Multi-Domain Open Source Chinois Pré-formation de modèle de modèle de langue pré-formation (de Tsinghua)
1998 Bibliothèque quotidienne d'annotation partielle @Baipan
Sogou 20061127 News Corpus (y compris les catégories) @ baidu pan
Udchinese (pour la formation de Spacy POS)
Modèle word2vec chinois
Des centaines de vecteurs de mots chinois pré-formés
Tencent Ai Lab Embedding Corpus pour les mots et phrases chinois
Bert de pré-formation chinoise avec masquage de mot entier
Le code de formation chinois GPT2 peut écrire de la poésie, des nouvelles, des romans ou des modèles de langue générale.
Évaluation de la langue chinoise Évaluation Chinese Glue comprend des ensembles de données représentatifs, des modèles de référence (pré-entraînés), du corpus et des classements.
La base de données chinoise du dictionnaire Xinhua comprend des idiomes, des idiomes, des mots et des caractères chinois.
Synonymes: La boîte à outils chinois Synonymes est basée sur les synonymes de la formation Wikipedia chinois et Word2Vec et est encapsulé en tant que fichier de package Python.
Chinois_conversation_sentiment Un ensemble de données de sentiment chinois peut être utile pour l'analyse des sentiments.
Corpus d'urgence chinois
DGK_LOST_CONV Corpus de dialogue chinois
Ensembles de données pour la formation du système de chatbot
Version Bagua de la réponse chinoise
Corpus de chat public chinois
Informations sur l'annonce boursière chinoise rampant pour obtenir l'annonce du marché boursier chinois (SZ, SH) du serveur de Juchao Network via des scripts Python (sociétés cotées et organismes de réglementation)
L'interface de données financières de Tushare Tushare est un package d'interface de données financière Python gratuit et open source.
Ensembles de données de texte financier SmoothNLP Financial Text Dataset (public) Public Financial DataSets for NLP Researches
Corpus de l'industrie de l'assurance [52NLP Introduction au blog] OpenData dans la zone d'assurance pour les tâches d'apprentissage automatique
La base de données la plus complète de la poésie et des paroles chinoises anciennes. Près de 14 000 poètes des dynasties Tang et Song, près de 55 000 poèmes Tang et 260 000 poèmes de chansons. Il y avait 1 564 poètes dans la dynastie Song et 21 050 poèmes.
DURIGNE DE LICE CHINISIQUE DUREADER
Les petites données du corpus chinois comprennent quelques petites données telles que la reconnaissance des entités nommées chinoises, la reconnaissance relationnelle chinoise, la compréhension de la lecture chinoise, etc.
Litrature-neter-re-rataset un niveau de données de reconnaissance et d'extraction de relation nommé au niveau du discours pour le texte de la littérature chinoise
ChinesextualInference Chinois Text Inference Project, y compris la traduction et la construction de 880 000 ensembles de données contenant du texte chinois contenant du texte, et le modèle de jugement contenant du texte basé sur l'apprentissage en profondeur.
Corpus de traitement du langage naturel chinois à grande échelle Wikipedia (Wiki2019ZH), News Corpus (News2016ZH), Encyclopedia Q&A (Baike2018QA)
Nom chinois Corpus Nom chinois, nom de famille, nom, nom, nom, nom japonais, nom de traduction, nom anglais.
Nom de l'entreprise, nom d'organisation Corpus Company Abréviation, abréviation, mot de marque, nom d'entreprise.
Plusieurs implémentations du filtrage des mots sensibles dans la base de données de mots sensibles chinois + une certaine base de données de mots sensibles 1 W Word
Abréviation chinoise Un corpus d'abréviation chinoise, y compris des formes complètes négatives.
Données chinoises Prétraitement Matériaux Dictionnaire de participe de mots chinois et mots d'arrêt chinois
Dictionnaire chinois Han
Sentibridge: La base de connaissances émotionnelles de l'entité chinoise décrit comment les gens décrivent une entité, y compris les nouvelles, le tourisme et la restauration, un total de 300 000 paires.
OpenCorpus une collection de sociétés (chinoises) disponibles gratuitement.
Chinesenlpcorpus émotionnel / point de vue / analyse de prétensibilité des commentaires, reconnaissance de l'entité de dénomination chinoise, système de recommandation
FinancialDatasets SmoothnLP Financial Text Dataset (public) Public Financial Dataset pour les recherches NLP uniquement
Tale de fées quotidiennes et pour enfants PD & CFT: un ensemble de données de compréhension en lecture chinoise
Wiki chinois 230 000 entrées de haute qualité - Mis à jour jusqu'au 23 juillet - Informations sensibles ou controversées filtrées
Laboratoire de traitement du langage naturel et des sciences humaines de l'Université de Tsinghua
Laboratoire clé du ministère de l'Éducation, Linguistique informatique, Université de Pékin
Groupe de recherche sur le traitement du langage naturel, Institut de l'informatique, Academy des sciences chinoises
Laboratoire de traitement de la technologie intelligente et du langage naturel de l'Institut de technologie de la technologie et du langage naturel
HARBIN INSTITUT OF TECHNOLOGY Social Computing and Information Retrieval Research Center
Groupe de traitement de la langue naturelle de l'Université Fudan
Groupe de traitement du langage naturel de l'Université Soochow
Groupe de recherche de traitement du langage naturel de l'Université Nanjing
Laboratoire de traitement du langage naturel de la Northeastern University
Laboratoire de traitement du langage naturel, Département des sciences et technologies intelligents, Université de Xiamen
Laboratoire de traitement du langage naturel de l'Université de Zhengzhou
Microsoft Research Institute of Asia Natural Language Processing
Laboratoire Ark de Huawei Noah
Groupe d'extraction de texte CUHK
Groupe d'exploitation des médias sociaux Polyu
Centre de technologie du langage humain HKUST
National Taiwan University NLP Lab
Société de l'information chinoise
CONFÉRENCES DE CONFÉRENCE PNLP CONFÉRENCES principales, revues, ateliers et tâches partagées dans la communauté PNL.
2017 La première évaluation de la compréhension de la lecture de la machine chinoise de la "Coupe Iflying"
2017 Image AI-Challenger La description chinoise décrit les principales informations dans une image donnée dans une phrase, contestant le problème de compréhension de l'image dans le contexte chinois.
2017 La traduction de texte de la machine anglaise-chinoise 2017 utilise des données à grande échelle pour améliorer les capacités des modèles de traduction de la machine texte anglais-chinois.
Le Challenge d'apprentissage de l'apprentissage de la Machine Learning 2017 de Zhihu Kanshan Cup forme un modèle qui étiquette automatiquement les données non étiquetées en fonction des données de formation de la relation de liaison des problèmes rencontrés par Zhihu et des balises de sujet.
Tâche de questions et réponses chinoises 2018 dans un domaine ouvert pour une question chinoise donnée, le système de questions / réponses sélectionne plusieurs entités ou des valeurs d'attribut à partir d'une base de connaissances donnée comme réponse à la question.
2018 Webank Intelligent Service Question Question La concurrence correspondant à la compétition correspond aux questions sur le véritable corpus du service client en chinois; Compte tenu de deux phrases, déterminez si les intentions des deux sont similaires.
Huawei Cloud NLP est un service cloud pour l'analyse de texte et l'exploitation minière fournie par diverses entreprises et développeurs, visant à aider les utilisateurs à traiter efficacement le texte.
Baidu Cloud NLP fournit une technologie de traitement du langage naturel de pointe, offrant une technologie de traitement et de compréhension de texte de haute qualité
Alibaba Cloud NLP fournit des outils de base pour l'analyse de texte et l'exploitation minière pour toutes sortes d'entreprises et de développeurs
Tencent Cloud NLP est basé sur des systèmes parallèles informatiques et rampants distribués, combinés à une technologie d'analyse sémantique unique, et répond à la PNL, à la transcodage, à l'extraction, à la rampe de données et à d'autres besoins en un seul arrêt.
Plateforme ouverte Iflytek avec interaction vocale comme plate-forme ouverte de l'intelligence artificielle de base
SOGOU LABORATORY WORD CHITE
Bosen Data Shanghai Bosen Data Technology Co., Ltd. se concentre sur la technologie d'analyse sémantique chinoise
Yunfu Technology NLP Toolkit, Knowledge Graph, Text Mining, Dialog Système, Analyse d'opinion publique, etc.
La technologie Zhiyan se concentre sur les percées dans l'apprentissage en profondeur et la technologie des graphiques de connaissances
La technologie Zhuiyi se concentre sur l'apprentissage en profondeur et le traitement du langage naturel
Livre chinois en Deep Learning
Stanford CS224N Traitement du langage naturel avec Deep Learning 2017
Oxford CS Deepnlp 2017
[Matériel de cours pour Georgia Tech CS 4650 et 7650, "Natural Language"] (https://github.com/jacobeisenstein/gt-nlp-class)
Traitement de la parole et du langage par Dan Jurafsky et James H. Martin
52NLP j'aime le traitement du langage naturel
Hankcs Code Farm
Traitement de texte Matériel de cours pratique Traitement du texte Les documents de cours pratiques incluent l'extraction des fonctionnalités de texte (TF-IDF), la classification du texte, le clustering de texte, le vecteur de mots de formation Word2Vec et le synonyme de la similitude des mots chinois de la forêt, le résumé automatique des documents, l'extraction d'informations, l'analyse des sentiments et l'extraction d'opinion et d'autres expériences.
NLP_TASKS TAXEUX DE TRAPRAIMENT DU LANGUE NATUREL
Introduction à la recherche sur la PNL de la professeure de l'Université de Tsinghua Liu Zhiyuan
Tâches, ensembles de données et résultats de données et résultats de pointe pour le traitement du langage naturel chinois