Eine kuratierte Liste von Ressourcen für NLP (natürliche Sprachverarbeitung) für Chinesisch
Informationen zur Verarbeitung chinesischer natürlicher Sprache verwandte Informationen
Das Bild stammt von Professor Qiu Xipeng von der Fudan University

Thulac Chinese Lexical Analysis Toolkit von Tsinghua (C ++/Java/Python)
NLPIP von der chinesischen Akademie der Wissenschaften (Java)
LTP Language Technology Platform von Harbin Institute of Technology (C ++) PYLYP LTP Python -Kapselung
Fudannlp von Fudan (Java)
Baidulac von Baidus Open-Source-Lexikalanalyse-Tool für Chinesisch, einschließlich Word-Segmentierung, Speech-Tagging und genannte Entitätserkennung.
Hanlp (Java)
Fastnlp (Python) Eine leichte NLP -Verarbeitungssuite.
Snownlp (Python) Python Library zur Verarbeitung chinesischer Text
Yayanlp (Python) Chinesisches Verarbeitungspaket für natürliche Sprache in Python mit dem Namen "Yaya Language"
Xiao Ming NLP (Python) Leichtes Tool für chinesische natürliche Sprachverarbeitung
Deepnlp (Python) Deep Learning NLP -Pipeline, die auf Tensorflow mit vorbereiteten chinesischen Modellen implementiert ist.
Chinese_NLP (C ++ & Python) Chinesische Tools und Beispiele für natürliche Sprachverarbeitung und Beispiele
LightNLP (Python) Natural Language Deep Learning Framework basierend auf Pytorch und Torchtext
Chinese-Annotator (Python) Annotator für chinesisches Textkorpus Chinesischer Textannotator-Tool
Poplar (TypeScript) Ein webbasiertes Annotationstool für die Verarbeitung natürlicher Sprache (NLP)
Jiagu (Python) Jiagu basiert auf Bilstm und anderen Modellen und wird auf großem Maßstab geschult. Es bietet gemeinsame Verarbeitungsfunktionen für natürliche Sprache wie chinesische Wortsegmentierung, Annotation der Speech, Benennung von Entitätserkennung, Stimmungsanalyse, Extraktion der Knowledge-Graph-Beziehung, Keyword-Extraktion, Textübersicht und neuer Word-Entdeckung.
SmoothNLP (Python & Java) Fokus auf interpretierbare NLP -Technologie
Foolnltk (Python & Java) Ein chinesisches Natursprache Toolkit
Corenlp von Stanford (Java) Eine Java -Suite von Kern -NLP -Tools.
Stanza von Stanford (Python) Eine Python NLP -Bibliothek für viele menschliche Sprachen
NLTK (Python) Natural Language Toolkit
SPACY (Python) Industrial-Fegtrial-Strecke natürliche Sprachverarbeitung mit einem Online-Kurs
Textacy (Python) NLP vor und nach Spacy
OpenNLP (JAVA) Ein Toolkit für maschinelles Lernen für die Verarbeitung natürlicher Sprachtext.
Gensim (Python) Gensim ist eine Python -Bibliothek für Themenmodellierung, Dokumentindexierung und Ähnlichkeitsabruf mit großem Unternehmen.
KASHGARI-Einfacher und leistungsstarker NLP-Framework, erstellen Sie Ihr hochmodernes Modell in 5 Minuten für die genannte Entitätserkennung (NER), das Teil der Speech-Tagging (POS) und die Textklassifizierungsaufgaben. Enthält Bert und Word2VEC eingebettet.
Jieba Chinese Wort Partizip (abgeleitet von Python und einer großen Anzahl anderer Programmiersprachen) ist die beste python chinesische Wortkomponente
Das Peking University Chinese Word Segmentation Tool (Python) ist ein sehr genaues Tool für chinesisches Wort Segmentierung, das einfach und einfach zu bedienen ist. Im Vergleich zu vorhandenen Open -Source -Tools verbessert es die Genauigkeit der Wortsegmentierung erheblich.
KCWS Deep Learning Chinese Word Partizip (Python) Bilstm+CRF und IDCNN+CRF
ID-CNN-CWS (Python) Iterierte erweiterte Konvolutionen für die chinesische Wortsegmentierung
Genius chinesisches Wort Partizip (Python) Genie ist eine Open -Source -Python -Chinesische Wort -Partizip -Komponente, die CRF (Conditional Random Field) bedingter Zufallsfeldalgorithmus verwendet.
Loso Chinese Partizip (Python)
Yaha "口" Chinese Partizip (Python)
Chinesische WordSegmentierung (Python) Chinesischer Word -Segmentierungsalgorithmus ohne Korpus
Gehen Sie effiziente Textsegmentierung; Unterstützen Sie Englisch, Chinesisch, Japanisch und andere.
Ansj Chinese Word Partizip (Java) Java-Implementierung des chinesischen Wortpartizips basierend auf N-Gram+CRF+Hmm
Mitie (C ++) Bibliothek und Tools zur Informationsextraktion
Mithucking (Haskell) Sprache, Engine und Werkzeug zum Ausdrücken, Testen und Bewertungen mit komponierbaren Sprachregeln für Eingabestrates.
Iepy (Python) IEPY ist ein Open -Source -Tool zur Informationsextraktion, das sich auf die Beziehungsextraktion konzentriert.
Schnorchel Ein Trainingsdatenerstellung und ein Managementsystem, das sich auf die Informationsextraktion konzentriert
Mit LSTM im Tensorflow implementierte neuronale Beziehungsextraktion
Ein neuronales Netzwerkmodell für die chinesische Erkennung von Entitätserkennung
Bert-Chinese-ner Verwenden
Information-Extraction-chinese Chinese genannte Entitätserkennung mit IDCNN/BILSTM+CRF und Beziehungsextraktion mit Bigru+2att Chinesische Entitätserkennung und Beziehungsextraktion
Familia ein Toolkit für die von Baidu produzierte Modellierung industrieller Thema
Textklassifizierung Alle Arten von Text Classificaiton -Modellen und mehr mit tiefem Lernen. Verwenden Sie Zhihu Q & A als Testdaten.
Komplexeventextraktion Das Konzept und das explizite Muster chinesischer zusammengesetzter Ereignisse, einschließlich bedingter Ereignisse, Kausalereignisse, Follow-up-Ereignissen, Umkehrereignissen und anderer Ereignisfunktionen und bilden eine rationale Karte.
Textrank4zh extrahiert automatisch Schlüsselwörter und Abstracts aus chinesischem Text
Rasa Nlu (Python) verwandeln natürliche Sprache in strukturierte Daten, eine chinesische Gabel bei Rasa Nlu Chi
Rasa Core (Python) maschinelles Lernenbasierter Dialog -Engine für Konversationssoftware
Chatstack eine vollständige Pipeline -Benutzeroberfläche zum Aufbau eines chinesischen NLU -Systems
Snips NLU (Python) Snips NLU ist eine Python -Bibliothek, mit der Sätze in natürlicher Sprache geschrieben und strukturierte Informationen extrahiert werden können.
Deeppavlov (Python) Eine Open-Source-Bibliothek zum Erstellen von End-to-End-Dialogsystemen und Schulungen Chatbots.
Chatscript Natural Language Tool/Dialog Manager, eine regelbasierte Chatbot-Engine.
Chatterbot (Python) Chatterbot ist ein maschinelles Lernen, Konversationsdialog -Engine zum Erstellen von Chat -Bots.
Chatbot (Python) Situations -Chatbot basierend auf der Vektorübereinstimmung
Tipask (PHP) ist ein Open -Source -PHP -Frage- und Antwortsystem, das basierend auf dem Laravel -Framework entwickelt wurde, das leicht zu skaliert ist, mit starker Belastungskapazität und Stabilität.
FRAGEANSWERINGSYSTEM (JAVA) Ein Java-Implemented Human-Computer-Frage- und Antwortsystem, mit dem automatisch Fragen analysiert und Kandidaten Antworten geben können.
QA-Snake (Python) Automatische Q & A basiert auf Multi-Forschungsmotoren und Deep-Lern-Technologien
Chatbot -Modell der Sequenz zur Sequenz mit TensorFlow (Python) implementiert
Chinesisches Leseverständnis Frage und Antwortsystem (Python) implementiert von Deep Learning Algorithmus
Anysq von Baidu enthält hauptsächlich ein Fragen-und-Antwort-System-Framework für FAQ-Sammlungen und ein SEMantic Matching Tool Simnet.
Dureader Chinese Reading Verständnis Basiscode (Python)
Automatisches Roboter -Framework basierend auf SmartQQ (Python)
QasstemonmedicalKg (Python) Ein krankheitszentriertes Wissensgraphen für medizinische Felder und verwendet dieses Wissensgraphen, um automatische Q & A und Analysedienste zu vervollständigen.
GPT2-Chitchat (Python) GPT2-Modell für chinesischen Chat
CDIAL-GPT (Python) bietet einen groß angelegten chinesischen Dialog-Datensatz und bietet ein chinesisches Dialog-Vorausgebildeter Modell (chinesisches GPT-Modell) in diesem Datensatz
Openkg.cn
Offenes chinesisches Wissenskartenschema
Großer chinesischer Konzeptkarte CN-Probase Offizielles Konto Einführung
Großer Open-Source-Download von 140 Millionen chinesischem Wissensgraphen
Abrufen von Agrarwissen für das Wissensgraphen, Abruf der Entität, Beziehungsextraktion, Klassifizierungsbaumkonstruktion, Data Mining im landwirtschaftlichen Bereich
CLDC Chinese Language Resource Alliance
Chinesische Wikipedia -Dump
Chinesisches vorgebildetes Modellrahmen basierend auf verschiedenen Korpus und unterschiedlichen Modellen (wie Bert und GPT) unterstützt vorgeborene Modelle für verschiedene Korpus-, Encoder- und Zielaufgaben (von RUC und Tencent)
OpenClap Multi-Domain Open Source Chinese Preated Language Model Repository (von Tsinghua)
1998 People's Daily Partial Annotation Library @Baidupan
SOGOU 20061127 News Corpus (einschließlich Kategorien) @ Baidu Pan
Udchinese (zur Ausbildung von Spacy Pos)
Chinesisches word2Vec -Modell
Hunderte von vorgeborenen chinesischen Wortvektoren
Tencent AI Laboring Corpus für chinesische Wörter und Phrasen einbetten
Chinesische Bert vor dem Training mit ganzer Wortmaskierung
Der chinesische GPT2 -Trainingscode kann Gedichte, Nachrichten, Romane schreiben oder allgemeine Sprachmodelle trainieren.
Das chinesische Verständnis für die Bewertung des chinesischen Sprachverständnisses enthält chinesische Chinesische Kleber, repräsentative Datensätze, Benchmark -Modelle (PretRained), Corpus und Ranglisten.
Die chinesische Xinhua -Dictionary -Datenbank enthält Redewendungen, Redewendungen, Wörter und chinesische Zeichen.
Synonyme: Das chinesische Synonyme -Toolkit basiert auf den Synonymen des chinesischen Wikipedia -chinesischen und word2VEC -Trainings und wird als Python -Paketdatei eingekapselt.
CHINES_CONVERSATION_SENTIMIENT Ein chinesischer Sentiment -Datensatz kann für die Stimmungsanalyse nützlich sein.
Chinesischer Notfallkorpus
dgk_lost_conv chinesischer Dialogkorpus
Datensätze für das Training von Chatbot -Systemen
Bagua -Version der chinesischen Antwort
Chinesisches öffentliches Chat -Korpus
Informationen zur Ankündigung der China -Aktienmarkte Kriechen, um die Ankündigung des China Börsenmarktes (SZ, SH) vom Server des Juchao -Netzwerks über Python -Skripte (börsennotierte Unternehmen und Regulierungsbehörden) zu erhalten.
Tushare Financial Data Interface Tushare ist ein kostenloses und Open -Source -Python Financial Data Interface -Paket.
Finanztextdatensätze SmoothNLP Financial Text Datasets (öffentliche) öffentliche Finanzdatensätze für NLP -Forschungen
Corpus der Versicherungsbranche [52NLP Einführung in Blog] OpenData im Versicherungsbereich für maschinelle Lernaufgaben
Die vollständigste Datenbank der alten chinesischen Poesie und Texte. Fast 14.000 Dichter der Tang- und Song -Dynastien, fast 55.000 Tang Gedichte und 260.000 Liedergedichte. Es gab 1.564 Dichter in der Song -Dynastie und 21.050 Gedichte.
Dureader chinesische Leseverständnisdaten
Kleine Daten des chinesischen Korpus umfassen einige kleine Daten wie chinesische genannte Entitätserkennung, chinesische Beziehungserkennung, chinesisches Leseverständnis usw.
Chinese-Literatur-Ner-Re-Dataset Ein diskurter Ebene-namentlicher Datensatz für Entitätserkennung und Beziehung für den chinesischen Literaturtext
Chinesetextualinference Chinese Text Inference Project, einschließlich der Übersetzung und Konstruktion von 880.000 texthaltigen texthaltigen texthaltigen Datensätzen und des texthaltigen Urteilsmodells basierend auf tiefem Lernen.
Große chinesische natürliche Sprachverarbeitung Corpus Wikipedia (Wiki2019zh), News Corpus (News2016ZH), Q & A (Baike2018qa), Encyclopedia-Q & A
Chinesischer Name Corpus Chinesischer Name, Nachname, Name, Name, Name, japanischer Name, Übersetzungsname, englischer Name.
Firmenname, Organisationsname Corpus Company Abkürzung, Abkürzung, Markenwort, Unternehmensname.
Mehrere Implementierungen sensibler Wortfilterung in der chinesischen sensiblen Wortdatenbank + eine bestimmte 1W -Wort -sensible Wortdatenbank
Chinesische Abkürzung Ein Korpus chinesischer Abkürzung, einschließlich negativer Vollformen.
Chinesische Datenvorverarbeitung Materialien Chinesisches Wort Partizip -Wörterbuch und chinesische Stoppwörter
Han Chinese Wörterbuch
Sentibridge: Die chinesische Entität emotionaler Wissensbasis beschreibt, wie Menschen eine Einheit beschreiben, einschließlich Nachrichten, Tourismus und Catering, insgesamt 300.000 Paare.
Opencorpus Eine Sammlung frei verfügbarer (chinesischer) Unternehmens.
Chinesenlpcorpus emotional/Gesichtspunkt-/Kommentaranalyse, chinesische Namenserkennung, Empfehlungssystem
Finanzialdatasets SmoothNLP Financial Text Datasets (öffentliche) öffentliche Finanzdatensätze nur für NLP -Forschungen
People's Daily & Children's Fey Tale PD & CFT: Ein chinesischer Leseverständnis -Datensatz
Chinesisches Wiki 230.000 hochwertige Einträge - Aktualisiert bis 23. Juli - gefilterte sensible oder kontroverse Informationen
Labor für natürliche Sprachverarbeitung und Geisteswissenschaften der Tsinghua University
Schlüssellabor für Bildungsministerium, Computer -Linguistik, Universität Peking
Forschungsgruppe für natürliche Sprachverarbeitung, Institut für Computer, Chinesische Akademie der Wissenschaften
Harbin Institute of Technology Intelligent Technologie und natürliches Sprachverarbeitungslabor
Harbin Institute of Technology Social Computing und Information Abrufforschungszentrum
Fudan University Natural Language Processing Group
Natural Sprachverarbeitungsgruppe der Soochow University
Forschungsgruppe für natürliche Sprachverarbeitung der Nanjing University
Labor für natürliche Sprachverarbeitung der Northeastern University
Labor für natürliche Sprachverarbeitung, Abteilung für intelligente Wissenschaft und Technologie, Universität Xiamen
Labor für natürliche Sprachverarbeitung der Universität Zhengzhou
Microsoft Research Institute of Asia Natural Language Processing
Huawei Noahs Ark -Labor
CUHK Text Mining Group
Polyu Social Media Mining Group
HKUST Human Language Technology Center
National Taiwan University NLP Labor
Chinesische Informationsgesellschaft
Hauptkonferenzen, Zeitschriften, Workshops und gemeinsame Aufgaben in der NLP -Community.
2017 Die erste Bewertung des chinesischen Machine -Leseverständnisse
2017 Ai-Challger Bild chinesische Beschreibung beschreibt die Hauptinformationen in einem bestimmten Bild in einem Satz und stellt das Problem des Bildverständnisses im chinesischen Kontext in Frage.
2017 Ai-Challger English-Chinese Machine Textübersetzung verwendet großflächige Daten, um die Funktionen von englisch-chinesischen Textmaschinenübersetzungsmodellen zu verbessern.
Der 2017 Zhihu Kanshan Cup Machine Learning Challenge trainiert ein Modell aus, das automatisch unbezeichnete Daten auf der Grundlage der Trainingsdaten der verbindlichen Beziehung der Probleme von Zhihu und den Themen -Tags bezeichnet.
2018 Chinesische Q & A -Aufgabe in offener Domäne für eine bestimmte chinesische Frage wählt das Q & A -System mehrere Entitäten oder Attributwerte aus einer bestimmten Wissensbasis als Antwort auf die Frage aus.
2018 Webank Intelligent Kundendienstfrage Übereinstimmende Wettbewerb entspricht Fragen zum Real Customer Service Corpus auf Chinesisch; Stellen Sie bei zwei Sätzen fest, ob die Absichten der beiden ähnlich sind.
Huawei Cloud NLP ist ein Cloud -Dienst für die Textanalyse und -abbau, die von verschiedenen Unternehmen und Entwicklern bereitgestellt wird, um Benutzern dabei zu helfen, Text effizient zu verarbeiten.
Baidu Cloud NLP bietet eine branchenführende Technologie für natürliche Sprachverarbeitung und bietet eine qualitativ hochwertige Textverarbeitung und das Verständnis der Technologie
Alibaba Cloud NLP bietet Kernwerkzeuge für die Textanalyse und den Bergbau für alle Arten von Unternehmen und Entwicklern
Tencent Cloud NLP basiert auf parallelen Computing- und verteilten Crawling -Systemen, kombiniert mit einer einzigartigen semantischen Analysetechnologie, und erfüllt NLP, Transcodierung, Extraktion, Datenkriechen und andere Bedürfnisse in einem Stopp.
Iflytek Open Platform mit Sprachinteraktion als Kernkunstkünstlern -Intelligenz Open Plattform
SOGOU Laborwort Partizip und Annotation zur Beschwörung
Bosendaten Shanghai Bosen Data Technology Co., Ltd. konzentriert sich auf die chinesische semantische Analysetechnologie
Yunfu Technology NLP Toolkit, Wissensgrafik, Textmining, Dialogsystem, öffentliche Meinungsanalyse usw.
Die Zhiyan -Technologie konzentriert sich auf Durchbrüche in der Deep -Lern- und Wissensgrafik -Technologie
Die Zhuiyi -Technologie konzentriert sich auf tiefes Lernen und natürliche Sprachverarbeitung
Chinesisch Deep Learning Book
Stanford CS224n natürliche Sprachverarbeitung mit Deep Learning 2017
Oxford CS Deepnlp 2017
[Kursmaterialien für Georgia Tech CS 4650 und 7650, "Natural Language"] (https://github.com/jacobeisenstein/gt-nlp-classe)
Sprach- und Sprachverarbeitung von Dan Jurafsky und James H. Martin
52nlp Ich liebe natürliche Sprachverarbeitung
Hankcs Code Farm
Textverarbeitung Praktische Kursmaterialien Textverarbeitung Praktische Kursmaterialien umfassen Textfunktionenextraktion (TF-IDF), Textklassifizierung, Textclustering, Word2VEC-Trainingswortvektor und Synonym-Wortwald Chinesische Wort Ähnlichkeitsberechnung, automatische Zusammenfassung der Dokumente, Informationsextraktion, Sentimentanalyse und Meinungsabbau und andere Experimente.
nlp_tasks natürliche Sprachverarbeitungsaufgaben und ausgewählte Referenzen
Einführung in die NLP -Forschung der Lehrerin der Tsinghua University Liu Zhiyuan
Chinesische NLP-gemeinsame Aufgaben, Datensätze und hochmoderne Ergebnisse für die chinesische natürliche Sprachverarbeitung