Segmentation des mots chinois de l'état avec Bi-Lstms (Ji Ma, Kuzman Ganchev et David Weiss, EMNLP 2018) - (https://aclweb.org/anthology/d18-1529)
Python3.6.x, Tensorflow 1.12.0
Dans ce projet, quatre ensembles de données chinoises (AS, CITYU, MSR et PKU) ont été utilisés pour former le modèle d'apprentissage en profondeur pour la tâche de segmentation des mots chinois. Ces ensembles de données peuvent être obtenus de: http://sighan.cs.uchicago.edu/bakeoff2005/
Run: python3 train.pyInput_file_path est le chemin qui ne contient aucune séquence chinoise d'espace.
Label_file_path est le chemin qui contient les étiquettes de séquence chinoise au format BIES.
Run: python3 preprocess.py original_file_path input_file_path output_file_path Original_file_path est le fichier qui contient la séquence chinoise.
Input_file_path est le chemin pour enregistrer la séquence chinoise sans espace.
Label_file_path est le chemin pour sauver les étiquettes de séquence chinoise au format BIES.
Run: python3 predict.py input_path output_path resources_pathInput_path est le fichier qui contient la séquence chinoise sans espace.
output_path est le chemin pour enregistrer les prédictions au format BIES.
Resources_path est le chemin du modèle enregistré.
Le modèle enregistré et les extras peuvent être téléchargés à partir de http://bit.ly/2pkgzbg et placés dans le dossier Ressources.
Run: python3 score.py predicition_file gold_filePrediction_file est le fichier qui contient les prédictions au format BIES à partir de l'étape précédente.
GOLD_FILE est le chemin d'accès au fichier GOLD au format BIES.