Stand der Technik Chinesische Wortsegmentierung mit BI-LSTMS (JI MA, Kuzman Ganchev und David Weiss, EMNLP 2018)-(https://aclweb.org/anthology/d18-1529)
Python3.6.x, Tensorflow 1.12.0
In diesem Projekt wurden vier chinesische Datensätze (AS, Cityu, MSR und PKU) verwendet, um das Deep -Learning -Modell für die Aufgabe der chinesischen Wortsegmentierungsaufgabe zu trainieren. Diese Datensätze können von: http://sighan.cs.uchicago.edu/bakeoff2005/ erhalten werden
Run: python3 train.pyinput_file_path ist der Pfad, der keine chinesische Sequenz ohne Raum enthält.
Label_File_Path ist der Pfad, der die chinesischen Sequenzbezeichnungen im BIES -Format enthält.
Run: python3 preprocess.py original_file_path input_file_path output_file_path Original_File_Path ist die Datei, die die chinesische Sequenz enthält.
input_file_path ist der Pfad, um die chinesische No-Raum-Sequenz zu speichern.
Label_File_Path ist der Weg, um die chinesischen Sequenzbezeichnungen im Bies -Format zu speichern.
Run: python3 predict.py input_path output_path resources_pathinput_path ist die Datei, die die chinesische No-Raum-Sequenz enthält.
Output_Path ist der Pfad, um die Vorhersagen im BIES -Format zu speichern.
Ressourcen_Path ist der Weg zum gespeicherten Modell.
Das gespeicherte Modell und die Extras können von http://bit.ly/2pkgzbg heruntergeladen und im Ordner der Ressourcen platziert werden.
Run: python3 score.py predicition_file gold_filePrediction_file ist die Datei, die die Vorhersagen im BIES -Format aus dem vorherigen Schritt enthält.
Gold_file ist der Weg zur Golddatei im Bies -Format.