تنزيل ChineseNER - تنزيل رمز المصدر ChineseNER

ChineseNER

بايثون

1.0.0

تنزيل

تشاينر

يستخدم هذا المشروع

بيثون 2.7
Tensorflow 1.7.0
Pytorch 0.4.0

إذا كنت لا تفهم التعرف على الكيان المسماة ، فيمكنك قراءة هذه المقالة أولاً. بالمناسبة ، يرجى النجوم ~

هذه هي أسهل طريقة لتحديد نموذج BILSTM+CRF لكيان مسمى.

بيانات

هناك ثلاث مجموعات بيانات مفتوحة المصدر متوفرة في مجلد البيانات وبيانات Boson (https://bosonnlp.com) و 1998 بيانات المسمى اليومية للأفراد ومعهد MSRA Microsoft Asia Research Institute Open Source. من بينها ، هناك 6 أنواع كيانات في مجموعة بيانات Boson. تقوم شركة People Daily Corpus و MSRA بشكل عام باستخراج ثلاثة أنواع من الكيانات: اسم الشخص واسم المكان واسم المنظمة.

قم أولاً بتشغيل ملف Python في البيانات لمعالجة البيانات التي يجب استخدامها للنموذج.

نسخة TensorFlow

ابدأ التدريب

ابدأ التدريب مع python train.py ، وسيتم حفظ النموذج المدرب في مجلد النموذج.

استخدم ناقلات الكلمات التي تم تدريبها مسبقًا

باستخدام python train.py pretrained سيبدأ التدريب باستخدام ناقلات Word PretRained. Vec.txt هو ناقل كلمة أصغر مسبقًا موجودًا على الإنترنت. يمكنك الرجوع إلى الكود الخاص بي لتعديله لاستخدام ناقلات Word Pretried Prested الأخرى.

اختبار النموذج المدرب

استخدم python train.py test للاختبار ، وسيتم قراءة أحدث طراز في مجلد النموذج تلقائيًا وإدخال الصينية للاختبار. تعتمد جودة نتائج الاختبار على دقة النموذج.

استخراج الكيان على مستوى الملف

استخدم python train.py input_file output_file لاستخراج كيان مستوى الملف.

يمكنه تلقائيًا قراءة أحدث طراز في مجلد النموذج ، واستخراج الكيانات في input_file واكتبها في output_file . أولاً ، هناك الجملة الأصلية ، ثم نوع الكيان والكيان (يمكن تعديله حسب الحاجة).

على سبيل المثال ، python train.py test1.txt res.txt ، محتوى res.txt كما يلي:

تتم إضافة تعديلات إضافية من وقت لآخر. .

نسخة Pytorch

استخدم نموذج BILSTM+CRF في البرنامج التعليمي Pytorch مباشرة.

فقط قم بتشغيل Train.py Training. نظرًا لأننا نستخدم وحدة المعالجة المركزية ولا نستخدم دفعة ، فإن سرعة التدريب بطيئة للغاية. إذا كنت ترغب ببساطة في تشغيل الكود ، فمن المستحسن استخدام بعض البيانات فقط لتشغيله. لن يتم تحديث Pytorch في الوقت الحالي.

دقة

لم يتم ضبط المعلمات بعناية للغاية. بلغت قيمة F لمجموعة بيانات Boson حوالي 70 ٪ ~ 75 ٪ ، وكانت قيمة F لمجموعات بيانات MSRA اليومية ومجموعات MSRA حوالي 85 ٪ ~ 90 ٪. (بعد كل شيء ، يحتوي Boson على 6 أنواع كيان ، والآخران لهما 3 أنواع فقط)