قائمة منسقة من الموارد لـ NLP (معالجة اللغة الطبيعية) للصينية
معالجة اللغة الطبيعية الصينية المعلومات ذات الصلة
الصورة من البروفيسور Qiu Xipeng من جامعة فودان

مجموعة أدوات التحليل المعجمية الصينية من Tsinghua (C ++/Java/Python)
Nlpir من قبل الأكاديمية الصينية للعلوم (Java)
منصة تكنولوجيا اللغة LTP من قبل معهد هاربين للتكنولوجيا (C ++) Pylyp LTP Python
Fudannlp بواسطة Fudan (Java)
Baidulac بواسطة أداة التحليل المعجمية المفتوحة للمصدر من Baidu للصينيين ، بما في ذلك تجزئة الكلمات ، وضع علامات جزء من الكلام والتعرف على الكيان المسماة.
Hanlp (Java)
Fastnlp (Python) مجموعة معالجة NLP خفيفة الوزن.
Snownlp (Python) مكتبة Python لمعالجة النص الصيني
Yayanlp (Python) حزمة معالجة اللغة الطبيعية الصينية مكتوبة في Python النقي ، المسماة "Yaya Language"
Xiao Ming NLP (Python) أداة معالجة اللغة الطبيعية الخفيفة الوزن
DeepNLP (Python) Learning Learning NLP Pipelize تم تنفيذها على Tensorflow مع نماذج صينية مسبقة.
صيني_nlp (C ++ & Python) أدوات وأمثلة اللغة الطبيعية الصينية
Lightnlp (Python) معالجة اللغة الطبيعية إطار عمل تعليمي عميق على أساس Pytorch و Torchtext
مذيع الصينيين (Python) لشرح أداة تعليق النص الصينية النصية الصينية
Poplar (TypeScript) أداة تعليق توضيحية قائمة على الويب لمعالجة اللغة الطبيعية (NLP)
يعتمد Jiugu (Python) Jiugu على BILSTM ونماذج أخرى ويتم تدريبه على مجموعة واسعة النطاق. سيوفر وظائف معالجة اللغة الطبيعية المشتركة مثل تجزئة الكلمات الصينية ، وشرح جزء من الكلام ، والتعرف على كيان التسمية ، وتحليل المشاعر ، واستخراج علاقة الرسم البياني للمعرفة ، واستخراج الكلمات الرئيسية ، وملخص النص ، واكتشاف الكلمات الجديد.
SmoothNLP (Python & Java) التركيز على تقنية NLP القابلة للتفسير
Foolnltk (Python & Java) مجموعة أدوات لغة الطبيعة الصينية
Corenlp by Stanford (Java) مجموعة Java من أدوات NLP الأساسية.
ستانزا من ستانفورد (بيثون) مكتبة بيثون NLP للعديد من اللغات البشرية
NLTK (Python) مجموعة أدوات اللغة الطبيعية
Spacy (Python) معالجة اللغة الطبيعية ذات القوة الصناعية مع دورة عبر الإنترنت
النص (Python) NLP ، قبل وبعد Spacy
OpenNLP (Java) مجموعة أدوات تعتمد على التعلم الآلي لمعالجة نص اللغة الطبيعية.
Gensim (Python) Gensim هي مكتبة Python لنمذجة الموضوع وفهرسة المستندات واسترجاع التشابه مع الشركات الكبيرة.
Kashgari-إطار عمل NLP بسيط وقوي ، قم ببناء نموذج الحالة الخاص بك في 5 دقائق للتعرف على الكيان المسماة (NER) ، وعلامة جزء من الكلام (POS) ومهام تصنيف النص. يتضمن Bert و Word2VEC مضمنًا.
يعد Jieba Chinese Word (مشتق من Python وعدد كبير من لغات البرمجة الأخرى) أفضل مكون Python الصيني النعت
أداة تجزئة الكلمات الصينية بجامعة بكين (Python) هي أداة تجزئة الكلمات الصينية الدقيقة للغاية والتي تكون بسيطة وسهلة الاستخدام. بالمقارنة مع أدوات المصدر المفتوح الحالي ، فإنه يحسن إلى حد كبير من دقة تجزئة الكلمات.
KCWS التعلم العميق كلمة صينية النعت (Python) BILSTM+CRF و IDCNN+CRF
تكررت ID-CNN-CWS (Python) من الملاحظات المتوسعة لتجزئة الكلمات الصينية
Genius الصينية النعت النعت (Python) عبقرية هي مكون النعت في Python الصيني مفتوح المصدر يستخدم خوارزمية الحقل العشوائي الشرطي CRF (
Loso الصينية النعت (Python)
Yaha "口" النعت الصيني (Python)
خوارزمية تجزئة الكلمات الصينية من ChinesEwordSegmessation (Python) بدون مجموعة
اذهب إلى تجزئة نص فعالة ؛ دعم اللغة الإنجليزية والصينية واليابانية وغيرها.
ANSJ الصينية Word GSSTER (JAVA) Java تنفيذ Word الصينية النعت على أساس N-Gram+CRF+HMM
مكتبة Mitie (C ++) وأدوات لاستخراج المعلومات
Duckling (Haskell) لغة ومحرك وأدوات للتعبير عن قواعد اللغة القابلة للتكوين واختبارها وتقييمها على سلاسل الإدخال.
IEPY (Python) IEPY هي أداة مفتوحة المصدر لاستخراج المعلومات تركز على استخراج العلاقة.
Snorkel A Training Creating and Management System يركز على استخراج المعلومات
استخراج العلاقة العصبية المنفذة مع LSTM في TensorFlow
نموذج الشبكة العصبية للاعتراف بالكيان الصيني المسمى
يستخدم Bert-chinese-ner نموذج اللغة المسبق قبل التدريب بيرت للقيام بـ NER الصيني
المعلومات الصينية-الصينية الصينية المسمى التعرف على الكيان مع IDCNN/BILSTM+CRF ، واستخراج العلاقة مع التعرف على الكيان الصيني BIGRU+2ATT واستخراج العلاقة
Familia مجموعة أدوات لنمذجة الموضوعات الصناعية التي تنتجها Baidu
تصنيف النص جميع أنواع نماذج النص الكلاسيكي وأكثر من ذلك مع التعلم العميق. استخدم Zhihu Q&A كبيانات الاختبار.
ComplexEventExtrated المفهوم والنمط الصريح للأحداث المركبة الصينية ، بما في ذلك الأحداث الشرطية والأحداث السببية وأحداث المتابعة والأحداث العكسية وغيرها من استخراج الأحداث ، وتشكيل خريطة عقلانية.
Textrank4ZH تلقائيًا ، قم باستخراج الكلمات الرئيسية والملخصات من النص الصيني
Rasa nlu (Python) تحويل اللغة الطبيعية إلى بيانات منظمة ، شوكة صينية في Rasa Nlu Chi
RASA CORE (PYTHON) محرك الحوار القائم على التعلم الآلي لبرامج المحادثة
chatstack واجهة مستخدم خط أنابيب كامل لبناء نظام NLU الصيني
Snips NLU (Python) Snips NLU هي مكتبة Python تسمح بتحليل الجمل المكتوبة باللغة الطبيعية وتستخلص المعلومات المنظمة.
Deeppavlov (Python) مكتبة مفتوحة المصدر لإنشاء أنظمة الحوار من طرف إلى طرف ودردشة تدريب.
Thatscript Language Tool/Dialog Manager ، وهو محرك chatbot قائم على القواعد.
Chatterbot (Python) Chatterbot هو محرك مربع حوار التعلم الآلي لإنشاء روبوتات الدردشة.
chatbot (Python) chatbot chatuational استنادًا إلى مطابقة المتجهات
Tipask (PHP) هو نظام أسئلة وأجوبة مفتوح المصدر PHP تم تطويره استنادًا إلى إطار عمل Laravel ، سهل التوسع ، بسعة حمولة قوية واستقرار.
QuestionAnsweringsystem (Java) نظام أسئلة وأجوبة من أجل الحاسوب البشري الذي يتم تنفيذه Java والذي يمكنه تحليل الأسئلة تلقائيًا وإعطاء إجابات مرشح.
QA-Snake (Python) سؤال وجواب تلقائي على أساس محركات البحث المتعددة وتقنيات التعلم العميق
نموذج chatbot التسلسل للتسلسل المنفذ باستخدام TensorFlow (Python)
نظام سؤال الإجابات القراءة الصينية (Python) التي تنفذها خوارزمية التعلم العميق
يتضمن anyq by Baidu بشكل أساسي إطارًا لنظام الأسئلة والأجوبة لمجموعات الأسئلة الشائعة وأداة مطابقة نصية نصية SimNet.
كود خط الأساس لفهم القراءة الصينية (بيثون)
إطار روبوت أوتوماتيكي على أساس SmartQQ (Python)
QASYSTEMONMEDICALKG (Python) رسم بياني معرفة يركز على المرض للحقول الطبية ، ويستخدم هذا الرسم البياني المعرفة لإكمال خدمات الأسئلة والأجوبة التلقائية.
نموذج GPT2-Chitchat (Python) GPT2 للدردشة الصينية
يوفر CDIAL-GPT (Python) مجموعة بيانات حوار صينية واسعة النطاق ويوفر نموذجًا صينيًا تم تدريبه مسبقًا (نموذج GPT الصيني) على مجموعة البيانات هذه
Openkg.cn
فتح مخطط خريطة المعرفة الصينية
خريطة المفهوم الصينية على نطاق واسع CN-PROBASE الحساب الرسمي مقدمة
تنزيل مصدر مفتوح على نطاق واسع من 140 مليون رسم بياني صيني
استرجاع معلومات الرسم البياني للمعرفة الزراعية ، التعرف على الكيان المسمى ، استخراج العلاقة ، بناء شجرة التصنيف ، استخراج البيانات في المجال الزراعي
تحالف موارد اللغة الصينية CLDC
تفريغ ويكيبيديا الصينية
يدعم إطار النموذج الصيني المسبق قبل التدريب على أساس مختلف ونماذج مختلفة (مثل BERT و GPT) النماذج المدربة مسبقًا لمهام مختلفة للمؤسسات والتشفير والمهام المستهدفة (من RUC و Tencent)
OpenClap متعددة المجالات مفتوحة المصدر مستودع نموذج اللغة الصينية قبل التدريب (من Tsinghua)
1998 مكتبة التعليقات الجزئية اليومية للأشخاص baidupan
Sogou 20061127 News Corpus (بما في ذلك الفئات) @ Baidu Pan
Udchinese (لتدريب Spacy POS)
نموذج Word2Vec الصيني
مئات من ناقلات الكلمات الصينية التي تم تدريبها مسبقًا
Tencent AI Lab تضمين مجموعة للكلمات والعبارات الصينية
بيرت الصينية قبل التدريب مع إخفاء الكلمة بأكملها
يمكن أن يكتب رمز التدريب الصيني GPT2 الشعر أو الأخبار أو الروايات أو تدريب نماذج اللغة العامة.
يتضمن تقييم فهم اللغة الصينية المعيار الصيني مجموعات بيانات تمثيلية ونماذج قياسية (pretRained) و Corpus والتصنيفات.
تتضمن قاعدة بيانات قاموس Xinhua الصينية التعبيرات والتعابير والكلمات والأحرف الصينية.
المرادفات: تعتمد مجموعة أدوات المرادفات الصينية على مرادفات تدريب Wikipedia الصينية و Word2Vec ويتم تغليفها كملف حزمة Python.
inclue_conversation_sentiment قد تكون مجموعة بيانات المشاعر الصينية مفيدة لتحليل المشاعر.
مجموعة الطوارئ الصينية
DGK_LOST_CONV الصينية كوربوس
مجموعات البيانات لتدريب نظام chatbot
نسخة باجوا من الإجابة الصينية
مجموعة الدردشة العامة الصينية
معلومات إعلان سوق الأسهم الصينية تزحف للحصول على إعلان سوق الأسهم الصيني (SZ ، SH) من خادم شبكة Juchao من خلال البرامج النصية Python (الشركات المدرجة والوكالات التنظيمية)
واجهة البيانات المالية TUSHARE TUSHARE هي حزمة واجهة بيانات بيثون مجانية ومفتوحة المصدر.
مجموعات بيانات النص المالي SmoothNLP مجموعات البيانات المالية المالية (العامة) مجموعات البيانات المالية العامة لأبحاث NLP
مجموعة التأمين [52NLP مقدمة للمدونة] Opendata في مجال التأمين لمهام التعلم الآلي
قاعدة البيانات الأكثر اكتمالا للشعر الصيني القديم وكلمات. ما يقرب من 14000 شعر من سلالات تانغ وأغنية ، وحوالي 55000 قصائد تانغ و 260،000 قصيدة أغنية. كان هناك 1564 شعرًا في سلالة سوند و 21،050 قصيدة.
DUREADER DESINE REANDENSINE DATIONS
تشمل البيانات الصغيرة للجسم الصيني بعض البيانات الصغيرة مثل التعرف على الكيان الصيني ، والتعرف على العلاقات الصينية ، وفهم القراءة الصينية ، إلخ.
صينية لليتراتر-ريد-dataset على مستوى الخطاب اسم بيانات التعرف على الكيان واستخراج العلاقة لنص الأدب الصيني
مشروع استدلال النص الصيني ChinesetStualIning ، بما في ذلك ترجمة وبناء 880،000 مجموعة بيانات تحتوي على نصوص صينية تحتوي على نص ، ونموذج الحكم المحتوي على النص على أساس التعلم العميق.
كوربوس ويكيبيديا (WIKI2019ZH) الصينية الصينية على نطاق واسع (WIKI2019ZH) ، News Corpus (News2016ZH) ، Encyclopedia Q&A (Baike2018QA)
الاسم الصيني Corpus الاسم الصيني ، اللقب ، الاسم ، الاسم ، الاسم الياباني ، اسم الترجمة ، الاسم الإنجليزية.
اسم الشركة ، اسم المنظمة Corpus Company Abbreviation ، الاختصار ، كلمة العلامة التجارية ، اسم المؤسسة.
العديد من تطبيقات تصفية الكلمات الحساسة في قاعدة بيانات الكلمات الصينية الحساسة
الاختصار الصيني مجموعة من الاختصار الصيني ، بما في ذلك الأشكال الكاملة السلبية.
مواد المعالجة المسبقة للبيانات الصينية والكلمات النعتية الصينية والكلمات الصينية توقف
هان القاموس الصيني
Sentibridge: تصف قاعدة المعرفة العاطفية الكيان الصيني كيف يصف الناس كيانًا ، بما في ذلك الأخبار والسياحة والتموين ، ما مجموعه 300000 زوج.
OpenCorpus مجموعة من الشركات المتاحة بحرية (صينية).
ChineseNLPCorpus العاطفية/وجهة النظر/التعليق التحليل ، التعرف على كيان التسمية الصينية ، نظام التوصية
FinancialDatasets SmoothNLP مجموعات بيانات النصية المالية (العامة) مجموعات البيانات المالية العامة لأبحاث NLP فقط
الحكاية اليومية والأطفال ، PD و CFT: مجموعة بيانات فهم صينية للقراءة
الويكي الصيني 230،000 إدخالات عالية الجودة - تم تحديثها حتى 23 يوليو - معلومات حساسة أو مثيرة للجدل
معالجة اللغة الطبيعية ومختبر الحوسبة في جامعة تسينغهوا
المختبر الرئيسي لوزارة التعليم ، اللغويات الحسابية ، جامعة بكين
مجموعة أبحاث معالجة اللغة الطبيعية ، معهد الحوسبة ، الأكاديمية الصينية للعلوم
معهد هاربين للتكنولوجيا التكنولوجيا الذكية ومختبر معالجة اللغة الطبيعية
مركز أبحاث معهد هاربين للتكنولوجيا الحوسبة واسترجاع المعلومات
مجموعة معالجة اللغة الطبيعية بجامعة فودان
مجموعة معالجة اللغة الطبيعية من جامعة Soochow
مجموعة أبحاث معالجة اللغة الطبيعية في جامعة نانجينغ
مختبر معالجة اللغة الطبيعية في جامعة نورث إيسترن
مختبر معالجة اللغة الطبيعية ، قسم العلوم والتكنولوجيا الذكية ، جامعة شيامن
مختبر معالجة اللغة الطبيعية في جامعة تشنغتشو
معهد Microsoft Research Institute في آسيا معالجة اللغة الطبيعية
مختبر Ark's Huawei Noah's
مجموعة تعدين النص Cuhk
مجموعة تعدين وسائل الإعلام الاجتماعية بوليو
مركز تكنولوجيا اللغة البشرية HKUST
جامعة تايوان الوطنية NLP Lab
جمعية المعلومات الصينية
مؤتمرات NLP Conference Calender المؤتمرات الرئيسية والمجلات وورش العمل والمهام المشتركة في مجتمع NLP.
2017 أول تقييم لفهم القراءة الصينية "الكأس"
2017 تصف صورة AI-Challenger الصينية المعلومات الرئيسية في صورة معينة في جملة واحدة ، مما يتحدى مشكلة فهم الصورة في السياق الصيني.
2017 تستخدم ترجمة نص الجهاز الإنجليزي الصيني 2017 بيانات واسعة النطاق لتحسين إمكانات نماذج ترجمة الآلات النصية باللغة الإنجليزية الصينية.
يدرب تحدي التعلم الآلي في كأس Zhihu Kanshan لعام 2017 نموذجًا يتميز تلقائيًا ببيانات غير مسمونة استنادًا إلى بيانات التدريب على العلاقة الملزمة للمشاكل التي قدمها Zhihu وعلامات الموضوع.
2018 مهمة سؤال وجواب صينية في مجال مفتوح لسؤال صيني معين ، يحدد نظام الأسئلة والأجوبة عدة كيانات أو قيم السمة من قاعدة معرفة معينة كإجابة على السؤال.
2018 Webank Intelligent Serfect Younding Question Matching Compety Mountting Quication on the Real Service Service Corpus باللغة الصينية ؛ بالنظر إلى جملتين ، حدد ما إذا كانت نوايا الاثنين متشابهة.
Huawei Cloud NLP هي خدمة سحابية لتحليل النص والتعدين المقدمة من مختلف المؤسسات والمطورين ، تهدف إلى مساعدة المستخدمين على معالجة النص بكفاءة.
يوفر Baidu Cloud NLP تقنية معالجة اللغة الطبيعية الرائدة في الصناعة ، مما يوفر تقنية المعالجة والتفاهم عالية الجودة
يوفر Alibaba Cloud NLP أدوات أساسية لتحليل النص والتعدين لجميع أنواع المؤسسات والمطورين
يعتمد Tencent Cloud NLP على أنظمة الحوسبة المتوازية والزحف الموزعة ، بالإضافة إلى تقنية التحليل الدلالي الفريد ، ويلبي NLP ، والترميز ، والاستخراج ، والزحف البيانات وغيرها من الاحتياجات في محطة واحدة.
Iflytek Open Platform مع التفاعل الصوتي باعتباره منصة الذكاء الاصطناعي الأساسي
Sogou Laboratory Word النعت وجزء من التعليق التوضيحي
Bosen Data Shanghai Bosen Data Technology Co. ، Ltd. تركز على تكنولوجيا التحليل الدلالي الصيني
Yunfu Technology NLP Toolkit ، رسم بياني للمعرفة ، تعدين النص ، نظام الحوار ، تحليل الرأي العام ، إلخ.
تركز تقنية Zhiyan على الاختراقات في تكنولوجيا التعلم العميق والمعرفة الرسوم
تركز تقنية Zhuiyi على التعلم العميق ومعالجة اللغة الطبيعية
كتاب التعلم العميق الصيني
Stanford CS224N معالجة اللغة الطبيعية مع التعلم العميق 2017
Oxford CS Deepnlp 2017
[مواد الدورة التدريبية لـ Georgia Tech CS 4650 و 7650 ، "اللغة الطبيعية"] (https://github.com/jacobeisenstein/gt-nlp-class)
معالجة الكلام واللغة بقلم دان جورافسكي وجيمس هـ. مارتن
52NLP أنا أحب معالجة اللغة الطبيعية
Hankcs Code Farm
معالجة النصوص عمليات الدورة التدريبية العملية معالجة النصوص العملية ، تتضمن مواد الدورة التدريبية النصية استخراج ميزة النص (TF-IDF) ، وتصنيف النص ، وتجميع النصوص ، و Word2VEC Training Word Vector و Word Word Forest Word Word Account ، وملخص الوثيقة التلقائي ، واستخراج المعلومات ، وتحليل المعنويات ، وتجارب الرأي وغيرها من التجارب.
NLP_Tasks مهام معالجة اللغة الطبيعية والمراجع المختارة
مقدمة إلى NLP Research من مدرس جامعة Tsinghua Liu Zhiyuan
مشتركة NLP الصينية المهام ومجموعات البيانات والنتائج الحديثة لمعالجة اللغة الطبيعية الصينية