Состояние искусства китайского сегментации слов с BI-LSTMS (Ji MA, Kuzman Ganchev и David Weiss, Emnlp 2018)-(https://aclweb.org/anthology/d18-1529)
Python3.6.x, Tensorflow 1.12.0
В этом проекте четыре китайских набора данных (AS, Cityu, MSR и PKU) были использованы для обучения модели глубокого обучения для задачи сегментации китайского слова. Эти наборы данных можно получить от: http://sighan.cs.uchicago.edu/bakeoff2005/
Run: python3 train.pyinput_file_path-это путь, который содержит китайскую последовательность без пространства.
label_file_path - это путь, который содержит китайские метки последовательности в формате Биса.
Run: python3 preprocess.py original_file_path input_file_path output_file_path Original_file_path - это файл, который содержит китайскую последовательность.
input_file_path-это путь для сохранения китайской последовательности без пространства.
label_file_path - это путь для сохранения китайских меток последовательности в формате Bies.
Run: python3 predict.py input_path output_path resources_pathinput_path-это файл, который содержит китайскую последовательность без пространства.
output_path - это путь для сохранения прогнозов в формате Биса.
resources_path - это путь к сохраненной модели.
Сохраненная модель и дополнения могут быть загружены с http://bit.ly/2pkgzbg и помещены в папку ресурсов.
Run: python3 score.py predicition_file gold_filePrediction_file - это файл, который содержит прогнозы в формате Bies с предыдущего шага.
Gold_file - это путь к золотому файлу в формате Bies.