Papel de referência BILSTM+CRF Para este modelo de projeto: http://www.aclweb.org/anthology/n16-1030, idcnn+CRF Artigo de referência: https://arxiv.org/abs/1702.02098
Instale a ferramenta de construção do código Bazel e instale o TensorFlow (atualmente, este projeto requer versão TF 1.0.0Alpha ou acima)
Mude para o diretório de código deste projeto e execute ./configure
Compilar serviços de back -end
Bazel Build // KCWS/CC: SEG_BACKEND_API
Siga o relato oficial de Kaizi Jizhong para responder ao KCWS para obter o endereço de download do corpus:

Descompactar o corpus em um diretório
Mude para o diretório de código e execute:
Python KCWS/Train/Process_anno_file.py <piror Directory> pre_chars_for_w2v.txt
Bazel Build terceiro_party/word2vec: word2vec
Obtenha a lista preliminar de palavras primeiro
./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save-vocab pre_vocab.txt -min-count 3
Processar palavras de baixa frequência python kcws/trep/replyed_unk.py pre_vocab.txt pre_chars_for_w2v.txt chars_for_w2v.txt
Treinamento Word2vec
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -Output Vec.txt -size 50 -Sample 1e -4 -negativo 5 -hs 1 -Binary 0 -iter 5
Construindo ferramentas de corpus de treinamento
Bazel Build KCWs/Train: Gerate_Treining
Gerar materiais
./bazel-bin/kcws/train/gereate_training vec.txt <corpus diretório> all.txt
Obtenha o arquivo de trem.txt, test.txt
Python KCWs/Train/Filter_Sentence.py All.txt
python kcws/trem/trens_cws.py--word2vec_path vec.txt ---tain_data_path <caminho absoluto para treinar.txt>--test_data_path test.txt-max_sentence_len 80-learning_rate 0.001 (o modelo odcn odcn é usado, você pode definir o que pode definir o que pode definir o que pode definir o que pode definir.
Bazel Build KCWS/CC: DUMP_VOCAB
./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/modelos/basic_vocab.txt
Python Tools/freeze_graph.py - -input_graph logs/graf.pbtxt - -input_checkpoint logs/model.ckpt -output_node_names "transições, reshape_7" -output_graph kcws/modelos/seg_model.pbtttt
Faça o download do modelo de anotação de parte da fala (solução temporária, documentos subsequentes fornecem treinamento, exportação, exportação, etc.)
Faça o download do POS_MODEL.PBTXT de https://pan.baidu.com/s/1byMabk para o KCWS/Models/Directory
Execute o serviço da web
./bazel-bin/kcws/cc/seg_backend_api ---model_path = kcws/modelos/seg_model.pbtxt (caminho absoluto para seg_model.pbtxt>) --vocab_path = kcws/modelos/basic_vocab.txt ---max_sntence
https://github.com/koth/kcws/blob/master/pos_train.md
Atualmente, o dicionário personalizado é suportado no estágio de decodificação. Para métodos de uso específicos, consulte o dicionário KCWS/CC/TEST_SEG.CC está no formato de texto, e cada formato de linha é o seguinte:
<Entrada personalizada> t <ight>
por exemplo:
Cogumelo magro azul 4
O peso é um número inteiro positivo, geralmente superior a 4, quanto maior, mais importante
http://45.32.100.248:9090/
Apêndice: use o mesmo modelo para identificar o nome da empresa para treinar:
http://45.32.100.248:18080