การแบ่งส่วนคำภาษาจีนที่ทันสมัยกับ BI-LSTMS (Ji Ma, Kuzman Ganchev และ David Weiss, EMNLP 2018)-(https://aclweb.org/anthology/d18-1529)
Python3.6.x, tensorflow 1.12.0
ในโครงการนี้มีการใช้ชุดข้อมูลภาษาจีนสี่ชุด (AS, CityU, MSR และ PKU) เพื่อฝึกอบรมรูปแบบการเรียนรู้อย่างลึกซึ้งสำหรับงานการแบ่งส่วนคำภาษาจีน ชุดข้อมูลเหล่านี้สามารถรับได้จาก: http://sighan.cs.uchicago.edu/bakeoff2005/
Run: python3 train.pyinput_file_path เป็นเส้นทางที่มีลำดับภาษาจีนไม่มีพื้นที่
label_file_path เป็นเส้นทางที่มีฉลากลำดับจีนในรูปแบบ BIES
Run: python3 preprocess.py original_file_path input_file_path output_file_path Original_file_path เป็นไฟล์ที่มีลำดับภาษาจีน
input_file_path เป็นเส้นทางที่จะบันทึกลำดับภาษาจีนที่ไม่มีพื้นที่
label_file_path เป็นเส้นทางที่จะบันทึกฉลากลำดับภาษาจีนในรูปแบบ BIES
Run: python3 predict.py input_path output_path resources_pathinput_path เป็นไฟล์ที่มีลำดับภาษาจีนไม่มีพื้นที่
Output_Path เป็นเส้นทางที่จะบันทึกการคาดการณ์ในรูปแบบ BIES
Resources_Path เป็นเส้นทางไปสู่โมเดลที่บันทึกไว้
โมเดลและความพิเศษที่บันทึกไว้สามารถดาวน์โหลดได้จาก http://bit.ly/2pkgzbg และวางไว้ในโฟลเดอร์ทรัพยากร
Run: python3 score.py predicition_file gold_filePrediction_file เป็นไฟล์ที่มีการคาดการณ์ในรูปแบบ BIES จากขั้นตอนก่อนหน้า
Gold_File เป็นเส้นทางไปยังไฟล์ทองในรูปแบบ BIES