Téléchargement kcws - Téléchargement du code source kcws

kcws

Autre code source

not_a_release

Télécharger

Citation

Bilstm + CRF Document de référence pour ce modèle de projet: http://www.aclweb.org/anthology/N16-1030, IDCNN + CRF Document de référence: https://arxiv.org/abs/1702.02098

Construire

Installez l'outil de construction de code bazel et installez TensorFlow (actuellement, ce projet nécessite une version TF 1.0.0alpha ou supérieure)
Passez au répertoire de code de ce projet et exécutez ./configure
Compiler les services backend
Buzel Build // KCWS / CC: SEG_BACKEND_API

former

Suivez le compte officiel de Kaizi Jizhong pour répondre à KCWS pour obtenir l'adresse de téléchargement du corpus:
Décomposer le corpus dans un répertoire
Passez au répertoire de code et exécutez:

Python KCWS / Train / Process_anno_file.py <Corpus Directory> Pre_chars_for_w2v.txt

bazel build tiers_party / word2vec: word2vec

Obtenez d'abord la liste des mots préliminaires

./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save-vocab pre_vocab.txt -min-Count 3

Processez les mots à basse fréquence Python KCWS / Train / Replace_Unk.py Pre_vocab.txt Pre_Chars_For_W2V.Txt Chars_for_W2V.TXT
Formation word2vec
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -output ve.txt -Size 50 -Sample 1e-4 -negative 5 -Hs 1 -Binary 0 -iter 5
Bâtiment des outils de corpus de formation
Bazel Build KCWS / Train: Generate_training
Générer des matériaux
./bazel-bin/kcws/train/generate_training ve.txt <Corpus Directory> all.txt
Obtenez le fichier Train.txt, test.txt
python kcws / train / filter_sence.py all.txt

Installez TensorFlow, passez au répertoire de code KCWS et exécutez:

Python KCWS / Train / Train_cws.py --word2vec_path ve.txt --train_data_path <Absolute Path to Train.txt> --TEST_DATA_PATH TEST.TXT --Max_Sentence_Len 80 --learning_rate 0.001 (Le modèle IDCNN par défaut est utilisé. Modèle Bilstm)

Générer un vocab

Bazel Build KCWS / CC: Dump_vocab

./bazel-bin/kcws/cc/dump_vocab ve.txt kcws / modèles / basic_vocab.txt

Exporter le modèle qualifié

Python Tools / Freeze_Graph.py - Input_Graph Logs / Graph.pbtxt - Input_CheckPoint Logs / Model.CKPT --output_Node_Names "Transitions, Reshape_7" --output_Graph KCWS / Models / Seg_Model.pbtxt

Téléchargez le modèle d'annotation de la partie du discours (solution temporaire, documents ultérieurs fournit une partie de la formation du modèle d'annotation, une exportation, etc.)
Téléchargez pos_model.pbtxt à partir de https://pan.baidu.com/s/1bymabk au KCWS / Models / Directory
Exécutez le service Web

./bazel-bin/kcws/cc/seg_backend_api --model_path = kcws / modèles / seg_model.pbtxt (chemin absolu vers seg_model.pbtxt>) --vocab_path = kcws / modèles / basic_vocab.txt--max_sence_len = 80

Instructions de formation pour l'annotation d'une partie du discours:

https://github.com/koth/kcws/blob/master/pos_train.md

Dictionnaire personnalisé

Actuellement, le dictionnaire personnalisé est pris en charge au stade de décodage. Pour des méthodes d'utilisation spécifiques, veuillez vous référer au dictionnaire KCWS / CC / TEST_SEG.CC est au format texte, et chaque format de ligne est le suivant: