Bilstm + CRF Document de référence pour ce modèle de projet: http://www.aclweb.org/anthology/N16-1030, IDCNN + CRF Document de référence: https://arxiv.org/abs/1702.02098
Installez l'outil de construction de code bazel et installez TensorFlow (actuellement, ce projet nécessite une version TF 1.0.0alpha ou supérieure)
Passez au répertoire de code de ce projet et exécutez ./configure
Compiler les services backend
Buzel Build // KCWS / CC: SEG_BACKEND_API
Suivez le compte officiel de Kaizi Jizhong pour répondre à KCWS pour obtenir l'adresse de téléchargement du corpus:

Décomposer le corpus dans un répertoire
Passez au répertoire de code et exécutez:
Python KCWS / Train / Process_anno_file.py <Corpus Directory> Pre_chars_for_w2v.txt
bazel build tiers_party / word2vec: word2vec
Obtenez d'abord la liste des mots préliminaires
./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save-vocab pre_vocab.txt -min-Count 3
Processez les mots à basse fréquence Python KCWS / Train / Replace_Unk.py Pre_vocab.txt Pre_Chars_For_W2V.Txt Chars_for_W2V.TXT
Formation word2vec
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -output ve.txt -Size 50 -Sample 1e-4 -negative 5 -Hs 1 -Binary 0 -iter 5
Bâtiment des outils de corpus de formation
Bazel Build KCWS / Train: Generate_training
Générer des matériaux
./bazel-bin/kcws/train/generate_training ve.txt <Corpus Directory> all.txt
Obtenez le fichier Train.txt, test.txt
python kcws / train / filter_sence.py all.txt
Python KCWS / Train / Train_cws.py --word2vec_path ve.txt --train_data_path <Absolute Path to Train.txt> --TEST_DATA_PATH TEST.TXT --Max_Sentence_Len 80 --learning_rate 0.001 (Le modèle IDCNN par défaut est utilisé. Modèle Bilstm)
Bazel Build KCWS / CC: Dump_vocab
./bazel-bin/kcws/cc/dump_vocab ve.txt kcws / modèles / basic_vocab.txt
Python Tools / Freeze_Graph.py - Input_Graph Logs / Graph.pbtxt - Input_CheckPoint Logs / Model.CKPT --output_Node_Names "Transitions, Reshape_7" --output_Graph KCWS / Models / Seg_Model.pbtxt
Téléchargez le modèle d'annotation de la partie du discours (solution temporaire, documents ultérieurs fournit une partie de la formation du modèle d'annotation, une exportation, etc.)
Téléchargez pos_model.pbtxt à partir de https://pan.baidu.com/s/1bymabk au KCWS / Models / Directory
Exécutez le service Web
./bazel-bin/kcws/cc/seg_backend_api --model_path = kcws / modèles / seg_model.pbtxt (chemin absolu vers seg_model.pbtxt>) --vocab_path = kcws / modèles / basic_vocab.txt--max_sence_len = 80
https://github.com/koth/kcws/blob/master/pos_train.md
Actuellement, le dictionnaire personnalisé est pris en charge au stade de décodage. Pour des méthodes d'utilisation spécifiques, veuillez vous référer au dictionnaire KCWS / CC / TEST_SEG.CC est au format texte, et chaque format de ligne est le suivant:
<Entrée personnalisée> t <eight>
Par exemple:
Champignon maigre bleu 4
Le poids est un entier positif, généralement plus de 4, plus
http://45.32.100.248:9090/
Annexe: utilisez le même modèle pour identifier le nom de l'entreprise pour s'entraîner:
http://45.32.100.248:18080