Daftar sumber daya yang dikuratori untuk NLP (pemrosesan bahasa alami) untuk orang Cina
Informasi Terkait Bahasa Alami Cina
Gambarnya dari Profesor Qiu Xipeng dari Universitas Fudan

Toolkit Analisis Leksikal Cina Thulac oleh Tsinghua (C ++/Java/Python)
NLPIR oleh Academy of Sciences Chinese (Java)
LTP Platform Teknologi Bahasa oleh Harbin Institute of Technology (C ++) Pylyp LTP Python Encapsulation
Fudannlp oleh Fudan (Java)
Baidulac oleh alat analisis leksikal open-source Baidu untuk Cina, termasuk segmentasi kata, penandaan bagian-of-speech & pengenalan entitas yang dinamai.
Hanlp (Java)
FastNLP (Python) Suite pemrosesan NLP yang ringan.
Perpustakaan Snownlp (Python) Python untuk Memproses Teks Cina
Yayanlp (Python) Paket Pemrosesan Bahasa Alami Cina Ditulis dalam Python murni, bernama "Yaya Bahasa"
Xiao Ming NLP (Python) Alat Pemrosesan Bahasa Natural Tiongkok Ringan
Deepnlp (Python) Pipa NLP Pembelajaran Depat diimplementasikan pada TensorFlow dengan model Cina pretrained.
Chines_nlp (C ++ & Python) Alat dan contoh pemrosesan bahasa alami Cina
Lightnlp (Python) Pemrosesan Bahasa Alami Kerangka Belajar Deep Berdasarkan Pytorch dan TorchText
Annotator Chinese-Annotator (Python) untuk Teks Cina Corpus Alat Annotator Teks Cina
Poplar (TypeScript) Alat anotasi berbasis web untuk pemrosesan bahasa alami (NLP)
Jiagu (Python) Jiagu didasarkan pada BILSTM dan model lainnya dan dilatih pada korpus skala besar. Ini akan memberikan fungsi pemrosesan bahasa alami yang umum seperti segmentasi kata Cina, anotasi bagian-of-speech, pengenalan entitas penamaan, analisis sentimen, ekstraksi hubungan grafik pengetahuan, ekstraksi kata kunci, ringkasan teks, dan penemuan kata baru.
SmoothNLP (Python & Java) Fokus pada Teknologi NLP yang dapat ditafsirkan
Foolnltk (Python & Java) A Chinese Nature Language Toolkit
Corenlp oleh Stanford (Java) Java rangkaian alat NLP inti.
Stanza oleh Stanford (Python) Perpustakaan Python NLP untuk banyak bahasa manusia
NLTK (Python) Natural Language Toolkit
Pemrosesan Bahasa Alami Kekuatan Industri Spacy (Python) dengan kursus online
Tekstasi (Python) NLP, sebelum dan sesudah spacy
OpenNLP (Java) Toolkit berbasis pembelajaran mesin untuk pemrosesan teks bahasa alami.
Gensim (Python) Gensim adalah perpustakaan Python untuk pemodelan topik, pengindeksan dokumen dan pengambilan kesamaan dengan perusahaan besar.
Kashgari-Kerangka kerja NLP yang sederhana dan kuat, membangun model canggih Anda dalam 5 menit untuk Named Entity Recognition (NER), Part-of-Speech Tagging (POS) dan tugas klasifikasi teks. Termasuk Bert dan Word2Vec tertanam.
Jieba Chinese Word participle (diturunkan oleh python dan sejumlah besar bahasa pemrograman lainnya) adalah komponen kata particips python python terbaik
Peking University Chinese Word Segmentation Tool (Python) adalah alat segmentasi kata Cina yang sangat akurat yang sederhana dan mudah digunakan. Dibandingkan dengan alat open source yang ada, ini sangat meningkatkan keakuratan segmentasi kata.
KCWS Deep Learning Word Participle (Python) BILSTM+CRF dan IDCNN+CRF
ID-CNN-CWS (Python) Konvolusi melebar untuk segmentasi kata Cina
Genius Chinese Word Participle (Python) Genius adalah komponen kata Python Chinese Python open source yang menggunakan algoritma bidang acak CRF (bidang acak bersyarat).
Loso China Participle (Python)
Yaha "口" Participle China (Python)
Chinesewordsmentation (Python) Algoritma Segmentasi Kata Cina tanpa corpus
Segmentasi teks yang efisien; Mendukung bahasa Inggris, Cina, Jepang, dan lainnya.
ANSJ Chinese Word participle (Java) Java Implementasi kata participle kata Cina berdasarkan n-gram+crf+hmm
Perpustakaan dan alat dan alat Mitie (C ++) untuk ekstraksi informasi
Bahasa Duckling (Haskell), mesin, dan perkakas untuk mengekspresikan, menguji, dan mengevaluasi aturan bahasa yang dapat dikomposisi pada string input.
IEPY (Python) IEPY adalah alat open source untuk ekstraksi informasi yang difokuskan pada ekstraksi hubungan.
Snorkel A Training Data Penciptaan dan Sistem Manajemen yang berfokus pada ekstraksi informasi
Ekstraksi hubungan saraf diimplementasikan dengan LSTM di TensorFlow
Model jaringan saraf untuk pengakuan entitas bernama Cina
Bert-Chinese-Gunakan Model Bahasa Pra-Terlatih Bert Untuk Melakukan Ner Cina
Informasi-ekstraksi-Cina-Cina bernama pengakuan entitas dengan idcnn/bilstm+crf, dan ekstraksi relasi dengan bigru+2att pengakuan entitas Cina dan ekstraksi hubungan
Familia A Toolkit untuk Pemodelan Topik Industri yang Diproduksi oleh Baidu
Klasifikasi Teks Semua Jenis Model Teks Klasifikasiiton dan lebih banyak lagi dengan pembelajaran yang mendalam. Gunakan T&J Zhihu sebagai data uji.
ComplexEventExtraction Konsep dan pola eksplisit peristiwa senyawa Cina, termasuk peristiwa bersyarat, peristiwa kausal, peristiwa tindak lanjut, peristiwa pembalikan dan ekstraksi peristiwa lainnya, dan membentuk peta rasional.
Textrank4Zh mengekstrak kata kunci dan abstrak secara otomatis dari teks Cina
Rasa nlu (Python) Ubah bahasa alami menjadi data terstruktur, garpu Cina di rasa nlu chi
Mesin Dialog Berbasis Pembelajaran Mesin Rasa Core (Python) untuk Perangkat Lunak Conversational
ChatStack UI Pipa Lengkap Untuk Membangun Sistem NLU Cina
Snips NLU (Python) Snips NLU adalah perpustakaan Python yang memungkinkan untuk menguraikan kalimat yang ditulis dalam bahasa alami dan mengekstrak informasi terstruktur.
DEEPPAVLOV (Python) Perpustakaan open source untuk membangun sistem dialog ujung ke ujung dan pelatihan chatbots.
CHATSCRIPT Alat Bahasa Alam/Manajer Dialog, mesin chatbot berbasis aturan.
Chatterbot (Python) Chatterbot adalah pembelajaran mesin, mesin dialog percakapan untuk membuat bot obrolan.
Chatbot (Python) Situational Chatbot berdasarkan pencocokan vektor
Tipask (PHP) adalah sistem pertanyaan dan jawaban PHP open source yang dikembangkan berdasarkan kerangka kerja Laravel, mudah diukur, dengan kapasitas dan stabilitas beban yang kuat.
PERTANYAANSWERINGSYSTEM (JAVA) A Java-Implemented-Computer Question and Answer System yang dapat secara otomatis menganalisis pertanyaan dan memberikan jawaban kandidat.
Q&A Q&A Qa-Snake (Python) Berdasarkan mesin multi-pencarian dan teknologi pembelajaran mendalam
Model Chatbot Urutan untuk Urutan Diimplementasikan Menggunakan TensorFlow (Python)
Sistem Pertanyaan dan Jawaban Pemahaman Bacaan Cina (Python) yang diimplementasikan oleh Algoritma Pembelajaran yang mendalam
AnyQ by Baidu terutama mencakup kerangka kerja sistem tanya jawab untuk koleksi FAQ dan alat pencocokan semantik teks SimNet.
Dureader Chinese Reading Comprehension Baseline Code (Python)
Kerangka Robot Otomatis Berdasarkan SmartQQ (Python)
QasystemonMedicalKg (Python) Sebuah grafik pengetahuan yang berpusat pada penyakit untuk bidang medis, dan menggunakan grafik pengetahuan ini untuk menyelesaikan layanan Q&A dan analisis otomatis.
Model GPT2-chitchit (Python) GPT2 untuk obrolan Cina
CDIAL-GPT (Python) menyediakan dataset dialog Cina skala besar dan menyediakan model pra-terlatih dialog Cina (model GPT Cina) pada dataset ini
Openkg.cn
Skema peta pengetahuan Cina terbuka
Peta Konsep Cina Skala Besar Pendahuluan Resmi CN-Probase Pendahuluan
Unduh Sumber Terbuka Skala Besar dari 140 juta Grafik Pengetahuan Cina
Pengambilan Informasi Grafik Pengetahuan Pertanian, Pengakuan Entitas yang Dinamai, Ekstraksi Hubungan, Klasifikasi Konstruksi Pohon, Penambangan Data di Bidang Pertanian
Aliansi Sumber Daya Bahasa China CLDC
Dump Wikipedia Cina
Kerangka kerja model pra-terlatih Cina berdasarkan berbagai korpus dan model yang berbeda (seperti Bert dan GPT), mendukung model pra-terlatih untuk berbagai korpus, encoder, dan tugas target (dari RUC dan Tencent)
OpenClap Multi-Domain Open Source Repositori Model Bahasa Pra-Terlatih Cina (dari Tsinghua)
Perpustakaan Anotasi Parsial Harian 1998 People @Baidupan
Sogou 20061127 News Corpus (termasuk kategori) @ Baidu Pan
Udchinese (untuk pelatihan spacy pos)
Model Word2Vec Cina
Ratusan vektor kata Cina pra-terlatih
Tencent ai lab menanamkan korpus untuk kata dan frasa Cina
Bert pra-pelatihan Cina dengan topeng seluruh kata
Kode pelatihan GPT2 Cina dapat menulis puisi, berita, novel, atau melatih model bahasa umum.
Benchmark Penilaian Bahasa China Chineseglue mencakup set data yang representatif, model benchmark (pretrained), corpus, dan peringkat.
Basis data Kamus Xinhua Cina meliputi idiom, idiom, kata -kata, dan karakter Cina.
Sinonim: Toolkit Sinonim Cina didasarkan pada sinonim pelatihan Wikipedia Cina dan Word2VEC dan dienkapsulasi sebagai file paket Python.
Chines_conversation_senttiment Dataset sentimen Cina mungkin berguna untuk analisis sentimen.
Corpus Darurat Cina
dgk_lost_conv corpus dialog Cina
Dataset untuk Sistem Pelatihan Chatbot
Versi Bagua dari Jawaban Cina
Corpus Obrolan Umum Cina
Informasi Pengumuman Pasar Saham China merangkak untuk mendapatkan pengumuman Pasar Saham China (SZ, SH) dari server Jaringan Juchao melalui skrip Python (perusahaan terdaftar dan lembaga pengatur)
Tushare Financial Data Interface Tushare adalah paket antarmuka data Python Financial gratis dan open source.
Dataset Teks Keuangan SmoothNLP Dataset Teks Keuangan (Publik) Dataset Keuangan Publik untuk Penelitian NLP
Corpus Industri Asuransi [52NLP Pengantar Blog] Opendata di Area Asuransi untuk Tugas Pembelajaran Mesin
Database paling lengkap dari puisi dan lirik Cina kuno. Hampir 14.000 penyair dinasti Tang dan Song, hampir 55.000 puisi tang dan 260.000 puisi lagu. Ada 1.564 penyair di dinasti Song dan 21.050 puisi.
Dureader Data Pemahaman Bacaan Cina
Data kecil korpus Cina termasuk beberapa data kecil seperti pengakuan entitas yang disebutkan oleh Cina, pengakuan hubungan Cina, pemahaman bacaan Cina, dll.
Tiongkok-literatur-ner-re-Dataset A wacana bernama pengakuan entitas dan dataset ekstraksi relasi untuk teks sastra Cina
Proyek Inferensi Teks ChineseTextualInference Teks, termasuk terjemahan dan konstruksi 880.000 set data yang mengandung teks Cina yang mengandung teks, dan model penilaian yang mengandung teks berdasarkan pembelajaran mendalam.
Pemrosesan Bahasa Alami Tiongkok Besar Corpus Wikipedia (Wiki2019zh), News Corpus (News2016Zh), Encyclopedia Q&A (BAIKE2018QA)
Nama Cina Corpus Nama Cina, Nama Keluarga, Nama, Nama, Nama, Nama Jepang, Nama Terjemahan, Nama Bahasa Inggris.
Nama Perusahaan, Nama Organisasi Corpus Perusahaan Singkatan, Singkatan, Kata Merek, Nama Perusahaan.
Beberapa implementasi pemfilteran kata sensitif dalam database kata sensitif Cina + database kata sensitif 1w 1W tertentu
Singkatan Cina Sebuah kumpulan singkatan Cina, termasuk bentuk penuh negatif.
Bahan Preprocessing Data Cina Kamus Participle Kamus dan Kata -Kata Berhenti Cina
Kamus Cina Han
Sentibridge: Basis Pengetahuan Emosional Entitas Tiongkok menggambarkan bagaimana orang menggambarkan suatu entitas, termasuk berita, pariwisata, dan katering, total 300.000 pasangan.
OpenCorpus Koleksi perusahaan yang tersedia secara bebas (Cina).
Chinesenlpcorpus Analisis Emosional/Sudut Pandang/Kecenderungan Komentar, Pengenalan Entitas Penamaan Cina, Sistem Rekomendasi
FinancialDataSets SmoothNLP Dataset Teks Keuangan (Publik) Dataset Keuangan Publik Hanya Untuk Penelitian NLP
People's Daily & Children's Fairy Tale PD & CFT: Dataset Pemahaman Bacaan Cina
Wiki Cina 230.000 entri berkualitas tinggi - diperbarui hingga 23 Juli - informasi sensitif atau kontroversial yang disaring
Pemrosesan bahasa alami dan humaniora menghitung laboratorium Universitas Tsinghua
Laboratorium Utama Kementerian Pendidikan, Linguistik Komputasi, Universitas Peking
Kelompok Penelitian Pemrosesan Bahasa Alami, Institut Komputasi, Akademi Ilmu Pengetahuan Cina
Institut Teknologi Teknologi Harbin dan Laboratorium Pemrosesan Bahasa Alami
HARBIN Institute of Technology Social Computing and Information Retrieval Research Center
Kelompok Pemrosesan Bahasa Alami Universitas Fudan
Kelompok Pemrosesan Bahasa Alami dari Universitas Soochow
Kelompok Penelitian Pemrosesan Bahasa Alami dari Universitas Nanjing
Laboratorium Pemrosesan Bahasa Alami Universitas Northeastern
Laboratorium Pemrosesan Bahasa Alami, Departemen Sains dan Teknologi Cerdas, Universitas Xiamen
Laboratorium Pemrosesan Bahasa Alami Universitas Zhengzhou
Microsoft Research Institute of Asia Alami Pemrosesan
Laboratorium Bahtera Huawei Nuh
Grup penambangan teks cuhk
Kelompok Penambangan Media Sosial Polyu
Pusat Teknologi Bahasa Manusia HKust
Laboratorium NLP Universitas Taiwan Nasional
Masyarakat Informasi Cina
Konferensi utama konferensi NLP, jurnal, lokakarya, dan tugas bersama di komunitas NLP.
2017 evaluasi pemahaman pembacaan mesin Cina "seflying cup" pertama
AI-Challenger Image 2017 Deskripsi Cina menjelaskan informasi utama dalam gambar yang diberikan dalam satu kalimat, menantang masalah pemahaman gambar dalam konteks Cina.
Terjemahan Teks Mesin AI-Challenger 2017 AI-Challenger menggunakan data skala besar untuk meningkatkan kemampuan model terjemahan mesin teks bahasa Inggris-Cina.
Tantangan Pembelajaran Mesin Piala Zhihu Kanshan 2017 melatih model yang secara otomatis memberi label data yang tidak berlabel berdasarkan data pelatihan tentang hubungan yang mengikat masalah yang diberikan oleh Zhihu dan tag topik.
Tugas Tanya Jawab Cina 2018 dalam domain terbuka untuk pertanyaan Cina yang diberikan, sistem tanya jawab memilih beberapa entitas atau nilai atribut dari basis pengetahuan yang diberikan sebagai jawaban atas pertanyaan.
2018 Webank Intelligent Layanan Pencocokan Layanan Pencocokan Pencocokan PERTANDINGAN PERTANYAAN PADA CORPUS LAYANAN PELANGGAN NYATA DALAM CINA; Diberi dua kalimat, tentukan apakah niat keduanya serupa.
Huawei Cloud NLP adalah layanan cloud untuk analisis teks dan penambangan yang disediakan oleh berbagai perusahaan dan pengembang, yang bertujuan untuk membantu pengguna memproses teks secara efisien.
Baidu Cloud NLP menyediakan teknologi pemrosesan bahasa alami yang terkemuka di industri, menyediakan pemrosesan teks berkualitas tinggi dan pemahaman teknologi
Alibaba Cloud NLP menyediakan alat inti untuk analisis teks dan penambangan untuk semua jenis perusahaan dan pengembang
Tencent Cloud NLP didasarkan pada komputasi paralel dan sistem merangkak terdistribusi, dikombinasikan dengan teknologi analisis semantik yang unik, dan memenuhi NLP, transkode, ekstraksi, merangkak data, dan kebutuhan lainnya dalam satu perhentian.
Platform Terbuka Iflytek dengan Interaksi Suara sebagai Platform Terbuka Kecerdasan Buatan Inti
Sogou Laboratory Word participle dan anotasi bagian-of-speech
Data Bosen Shanghai Bosen Data Technology Co., Ltd. Berfokus pada Teknologi Analisis Semantik Cina
TOLOODKIT NLP TEKNOLOGI YUNFU, Grafik Pengetahuan, Penambangan Teks, Sistem Dialog, Analisis Opini Publik, dll.
Teknologi Zhiyan berfokus pada terobosan dalam pembelajaran mendalam dan teknologi grafik pengetahuan
Teknologi Zhuiyi berfokus pada pembelajaran yang mendalam dan pemrosesan bahasa alami
Buku Pembelajaran Depat Cina
Stanford CS224N Pemrosesan Bahasa Alami dengan Deep Learning 2017
Oxford CS Deepnlp 2017
[Bahan Kursus untuk Georgia Tech CS 4650 dan 7650, "Bahasa Alami"] (https://github.com/jacobeisenstein/gt-nlp-class)
Pemrosesan Pidato dan Bahasa oleh Dan Jurafsky dan James H. Martin
52NLP Saya suka pemrosesan bahasa alami
Hankcs Code Farm
Pemrosesan Teks Bahan Kursus Praktis Pemrosesan Teks Materi Kursus Praktis termasuk ekstraksi fitur teks (TF-IDF), klasifikasi teks, pengelompokan teks, vektor kata pelatihan Word2VEC dan sinonim Word Forest Chinese Word Perhitungan kesamaan, ringkasan dokumen otomatis, ekstraksi informasi, analisis sentimen dan penambangan opini dan eksperimen lainnya.
nlp_tasks tugas pemrosesan bahasa alami dan referensi yang dipilih
Pengantar Penelitian NLP dari Tsinghua University Teacher Liu Zhiyuan
Tugas Bersama NLP Cina, Dataset, dan Hasil Canggih untuk Pemrosesan Bahasa Alami Cina