Chinese Word Segmentation in NLP
1.0.0
与BI-LSTMS(JI MA,Kuzman Ganchev和David Weiss,EMNLP 2018)的艺术中文单词分割 - 2018年) - (https://aclweb.org/anthology/d18-1529)
Python3.6.x,TensorFlow 1.12.0
在这个项目中,使用了四个中国数据集(AS,Cityu,MSR和PKU)来训练中文单词细分任务的深度学习模型。这些数据集可以从:http://sighan.cs.uchicago.edu/bakeoff2005/
Run: python3 train.pyinput_file_path是包含无空间中文序列的路径。
Label_file_path是包含Bies格式的中文序列标签的路径。
Run: python3 preprocess.py original_file_path input_file_path output_file_path Original_file_path是包含中文序列的文件。
input_file_path是保存无空间中文序列的路径。
Label_file_path是保存中文序列标签的途径。
Run: python3 predict.py input_path output_path resources_pathInput_path是包含无空间中文序列的文件。
output_path是保存预测的路径。
Resources_Path是保存模型的途径。
可以从http://bit.ly/2pkgzbg下载保存的模型和附加器,并放置在资源文件夹中。
Run: python3 score.py predicition_file gold_filePrediction_File是包含从上一步的Bies格式的predicitions的文件。
Gold_File是以零售格式的金文件的路径。