Segmentação de palavras chinesas de última geração com BI-LSTMS (Ji MA, Kuzman Ganchev e David Weiss, EMNLP 2018)-(https://aclweb.org/anthology/d18-1529)
Python3.6.x, Tensorflow 1.12.0
Neste projeto, quatro conjuntos de dados chineses (AS, Cityu, MSR e PKU) foram usados para treinar o modelo de aprendizado profundo para a tarefa de segmentação de palavras chinesa. Esses conjuntos de dados podem ser obtidos em: http://sighan.cs.uchicago.edu/bakeoff2005/
Run: python3 train.pyinput_file_path é o caminho que contém sequência chinesa sem espaço.
LABEL_FILE_PATH é o caminho que contém os rótulos de sequência chinesa no formato BIES.
Run: python3 preprocess.py original_file_path input_file_path output_file_path original_file_path é o arquivo que contém a sequência chinesa.
input_file_path é o caminho para salvar a sequência chinesa sem espaço.
LABEL_FILE_PATH é o caminho para salvar os rótulos de sequência chinesa no formato BIES.
Run: python3 predict.py input_path output_path resources_pathInput_Path é o arquivo que contém a sequência chinesa sem espaço.
output_Path é o caminho para salvar as previsões no formato BIES.
Resources_Path é o caminho para o modelo salvo.
O modelo salvo e os extras podem ser baixados em http://bit.ly/2pkgzbg e colocados na pasta Recursos.
Run: python3 score.py predicition_file gold_filePrediction_File é o arquivo que contém as predições no formato BIES da etapa anterior.
Gold_File é o caminho para o arquivo de ouro no formato BIES.