Negara Bagian Segmentasi Kata Cina dengan Bi-lstms (Ji Ma, Kuzman Ganchev dan David Weiss, EMNLP 2018)-(https://aclweb.org/anthology/d18-1529)
Python3.6.x, TensorFlow 1.12.0
Dalam proyek ini, empat dataset Cina (AS, Cityu, MSR dan PKU) digunakan untuk melatih model pembelajaran yang mendalam untuk tugas segmentasi kata Cina. Kumpulan data ini dapat didapat dari: http://sighan.cs.uchicago.edu/bakeoff2005/
Run: python3 train.pyinput_file_path adalah jalur yang berisi urutan tidak-ruang Cina.
label_file_path adalah jalur yang berisi label urutan Cina dalam format BIES.
Run: python3 preprocess.py original_file_path input_file_path output_file_path original_file_path adalah file yang berisi urutan Cina.
input_file_path adalah jalur untuk menyimpan urutan Cina tanpa ruang.
label_file_path adalah jalur untuk menyimpan label urutan Cina dalam format BIES.
Run: python3 predict.py input_path output_path resources_pathInput_path adalah file yang berisi urutan tidak-ruang Cina.
output_path adalah jalur untuk menyimpan prediksi dalam format BIES.
Resources_path adalah jalur menuju model yang disimpan.
Model dan ekstra yang disimpan dapat diunduh dari http://bit.ly/2pkgzbg dan ditempatkan di folder sumber daya.
Run: python3 score.py predicition_file gold_filePrediction_file adalah file yang berisi format predika dalam BIES dari langkah sebelumnya.
Gold_file adalah jalur ke file emas dalam format BIES.