Bi-LSTMS를 사용한 최첨단 중국어 단어 세분화 (Ji Ma, Kuzman Ganchev 및 David Weiss, EMNLP 2018)-(https://aclweb.org/anthology/d18-1529)
Python3.6.x, 텐서 플로 1.12.0
이 프로젝트에서는 4 개의 중국 데이터 세트 (AS, Cityu, MSR 및 PKU)를 사용하여 중국어 단어 세분화 작업을위한 딥 러닝 모델을 훈련 시켰습니다. 이 데이터 세트는 http://sighan.cs.uchicago.edu/bakeoff2005/에서 얻을 수 있습니다.
Run: python3 train.pyinput_file_path는 공간 중국 시퀀스가없는 경로입니다.
label_file_path는 BIES 형식의 중국 시퀀스 레이블을 포함하는 경로입니다.
Run: python3 preprocess.py original_file_path input_file_path output_file_path Original_File_Path는 중국 시퀀스를 포함하는 파일입니다.
input_file_path는 공간이없는 중국 시퀀스를 저장하는 경로입니다.
label_file_path는 중국 시퀀스 레이블을 BIES 형식으로 저장하는 경로입니다.
Run: python3 predict.py input_path output_path resources_pathinput_path는 공간이없는 중국 시퀀스를 포함하는 파일입니다.
Output_Path는 예측을 BIES 형식으로 저장하는 경로입니다.
Resources_Path는 저장된 모델의 경로입니다.
저장된 모델과 엑스트라는 http://bit.ly/2pkgzbg에서 다운로드하여 리소스 폴더에 배치 할 수 있습니다.
Run: python3 score.py predicition_file gold_fileprediction_file은 이전 단계에서 BIES 형식의 예측을 포함하는 파일입니다.
Gold_file은 Bies 형식의 금 파일로가는 경로입니다.