نموذج البيانات الصينية المقدمة لسباسي. النموذج حاليا في اختبار تجريبي للجمهور.
العرض التوضيحي عبر الإنترنت بناءً على دفتر Jupyter.
بعض معلومات السمة الخاصة بكائن Doc هذا王小明在北京的清华大学读书:

بعض معلومات NER حول دراسة Doc الخاصة بـ Wang Xiaoming王小明在北京的清华大学读书:

يتم توزيع النموذج في شكل ملفات ثنائية ، ويجب أن يكون لدى المستخدمين معرفة أساسية بـ Spacy (الإصدار> 2).
Python 3 (ربما دعم Python2 ، ولكن لم يتم اختباره جيدًا)
قم بتنزيل النموذج من صفحة الإصدارات ( الجديدة! يوفر للمستخدمين في الصين روابط لتسريع التنزيلات). لنفترض أن النموذج الذي تم تنزيله يسمى zh_core_web_sm-2.xxtar.gz .
pip install zh_core_web_sm-2.x.x.tar.gz
من أجل تسهيل الاستخدام اللاحق في الأطر مثل Rasa NLU ، من الضروري إنشاء رابط لهذا النموذج ، من خلال تنفيذ الأمر التالي:
spacy link zh_core_web_sm zhبعد اكتمال التشغيل ، يمكنك استخدام ZH ZH للوصول إلى النموذج.
يقع الرمز التجريبي في test.py بعد تثبيت النموذج ، يقوم المستخدم بتنزيل أو استنساخ الرمز في هذا المستودع ويمكنه تنفيذه مباشرة.
python3 ./test.py افتح العنوان http://127.0.0.1:5000 وسترى ما يلي:

انظر سير العمل
المجموعة المستخدمة في هذا المشروع هي Ontonotes 5.0.
نظرًا لأن Ontonotes 5.0 هي المادة المحمية بحقوق الطبع والنشر لـ LDC (اتحاد البيانات اللغوية) ، فلا يمكن تضمينها مباشرة في هذا المشروع. والخبر السار هو أن Ontonotes 5.0 مجاني تمامًا لمستخدمي المجموعة ، بما في ذلك الشركات والمؤسسات الأكاديمية. يمكن للمستخدمين إنشاء حساب مؤسسة أو منظمة أكاديمية ثم الحصول على Ontonotes 5.0 مجانًا.
pos_ غير صحيحة. هذا يرتبط بفئة اللغة الصينية في سبيس.is_alpha shape_is_stop غير صحيحة. هذا يرتبط بفئة اللغة الصينية في سبيس.vector السمة مدرب جيدًا.is_oov خاطئة تماما. إصلاح الأولوية الأول.يرجى قراءة المساهمة. md وتقديم طلبات السحب لنا.
نستخدم Semver لمعايير الإصدار. تحقق من tags لفهم جميع الإصدارات.
لمزيد من المعلومات حول المساهمين ، يرجى الرجوع إلى contributors .
رخصة معهد ماساتشوستس للتكنولوجيا - راجع الترخيص.