Bilstm+Documento de referencia de CRF para este modelo de proyecto: http://www.aclweb.org/anthology/n16-1030, Idcnn+CRF REFERENCIA Documento: https://arxiv.org/abs/1702.02098
Instale la herramienta de construcción de código de bazel e instale tensorflow (actualmente, este proyecto requiere la versión TF 1.0.0Alpha o superior)
Cambiar al directorio de código de este proyecto y ejecutar ./configure
Compilar servicios de backend
bazel build // kcws/cc: seg_backend_api
Siga la cuenta oficial de Kaizi Jizhong para responder a KCWS para obtener la dirección de descarga del corpus:

Descompensar el corpus en un directorio
Cambie al directorio de código y ejecute:
Python KCWS/Train/Process_anno_file.py <Corpus Directory> Pre_Chars_FOR_W2V.TXT
Bazel Build Third_Party/Word2Vec: Word2Vec
Obtenga la lista de palabras preliminar primero
./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save -vocab pre_vocab.txt -min -count 3
Palabras de baja frecuencia de proceso Python KCWS/Train/Reemplazar_unk.py pre_vocab.txt Pre_chars_for_w2v.txt chars_for_w2v.txt
Word de entrenamiento2Vec
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -output vec.txt -size 50 -sample 1e -4 -negative 5 -hs 1 -binary 0 -iter 5
Herramientas de Corpus Corpus de formación
bazel Build KCWS/Train: Generate_Training
Generar materiales
./bazel-bin/kcws/train/generate_training vec.txt <directorio corpus> all.txt
Obtenga el archivo Train.txt, test.txt
Python KCWS/Train/Filter_sentence.py All.txt
Python KCWS/Train/Train_cwss.py --Word2Vec_Path Vec.txt --train_data_path <absoluta ruta a trenes modelo)
Bazel Build KCWS/CC: dump_vocab
./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/modelos/basic_vocab.txt
Python Herramientas/Freeze_Graph.py - -Input_Graph Logs/Graph.pbtxt - -Input_checkpoint logs/model.ckpt --output_node_nodes "Transitions, reshape_7" --output_graph kcws/modelos/seg_model.pbtxt
Descargue el modelo de anotación de parte del discurso (solución temporal, documentos posteriores proporcionan capacitación, exportación, etc.)
Descargar pos_model.pbtxt desde https://pan.baidu.com/s/1bymabk a KCWS/Models/Directory
Ejecutar el servicio web
./bazel-bin/kcws/cc/seg_backend_api --model_path = kcws/modelos/seg_model.pbtxt (absoluta ruta a seg_model.pbtxt>) --Vocab_path = kcws/modelos/básico_vocab.txt --max_sentence_len = 80
https://github.com/koth/kcws/blob/master/pos_train.md
Actualmente, el diccionario personalizado es compatible con la etapa de decodificación. Para obtener métodos de uso específicos, consulte el diccionario KCWS/CC/test_seg.cc está en formato de texto, y cada formato de línea es el siguiente:
<Entrada personalizada> t <peso>
Por ejemplo:
Hongo azul delgado 4
El peso es un entero positivo, generalmente más de 4, cuanto más grande, más importante
http://45.32.100.248:9090/
Apéndice: use el mismo modelo para identificar el nombre de la empresa para entrenar:
http://45.32.100.248:18080