bi-lstmsによる中国語の単語セグメンテーション(Ji Ma、Kuzman Ganchev and David Weiss、EMNLP 2018) - (https://aclweb.org/anthology/D18-1529)
Python3.6.x、Tensorflow 1.12.0
このプロジェクトでは、4つの中国のデータセット(AS、CityU、MSR、およびPKU)を使用して、中国語の単語セグメンテーションタスクのディープラーニングモデルをトレーニングしました。これらのデータセットは、http://sighan.cs.uchicago.edu/bakeoff2005/から入手できます。
Run: python3 train.pyinput_file_pathは、空間のない中国のシーケンスを含むパスです。
label_file_pathは、BIES形式の中国のシーケンスラベルを含むパスです。
Run: python3 preprocess.py original_file_path input_file_path output_file_path original_file_pathは、中国のシーケンスを含むファイルです。
input_file_pathは、空間の中国のシーケンスを保存するためのパスです。
label_file_pathは、BIES形式で中国のシーケンスラベルを保存するパスです。
Run: python3 predict.py input_path output_path resources_pathinput_pathは、無スペースの中国のシーケンスを含むファイルです。
output_pathは、BIES形式の予測を保存するパスです。
Resources_Pathは、保存されたモデルへのパスです。
保存されたモデルとエキストラは、http://bit.ly/2pkgzbgからダウンロードして、リソースフォルダーに配置できます。
Run: python3 score.py predicition_file gold_filePrediction_fileは、前のステップからBIES形式の述語を含むファイルです。
Gold_fileは、Bies形式のGoldファイルへのパスです。