تقسيم الكلمات الصينية على أحدث طراز مع BI-LSTMS (JI MA ، Kuzman Ganchev و David Weiss ، EMNLP 2018)-(https://aclweb.org/anthology/D18-1529)
Python3.6.x ، Tensorflow 1.12.0
في هذا المشروع ، تم استخدام أربع مجموعات بيانات صينية (AS ، Cityu و MSR و PKU) لتدريب نموذج التعلم العميق لمهمة تجزئة الكلمات الصينية. يمكن الحصول على مجموعات البيانات هذه من: http://sighan.cs.uchicago.edu/bakeoff2005/
Run: python3 train.pyinput_file_path هو المسار الذي لا يحتوي على تسلسل صيني غير مساح.
label_file_path هو المسار الذي يحتوي على ملصقات التسلسل الصينية بتنسيق BIES.
Run: python3 preprocess.py original_file_path input_file_path output_file_path Original_File_Path هو الملف الذي يحتوي على التسلسل الصيني.
input_file_path هو المسار لحفظ التسلسل الصيني بدون مساحة.
label_file_path هو المسار لحفظ ملصقات التسلسل الصينية بتنسيق BIES.
Run: python3 predict.py input_path output_path resources_pathinput_path هو الملف الذي يحتوي على تسلسل الصيني غير المتفوق.
Output_Path هو المسار لحفظ التنبؤات بتنسيق BIES.
Resources_Path هو الطريق إلى النموذج المحفوظ.
يمكن تنزيل النموذج المحفوظ والإضافات من http://bit.ly/2pkgzbg ووضعه في مجلد الموارد.
Run: python3 score.py predicition_file gold_fileالتنبؤ_file هو الملف الذي يحتوي على التنبؤات بتنسيق BIES من الخطوة السابقة.
Gold_file هو المسار إلى ملف الذهب بتنسيق BIES.