Download do kcws - Download do código fonte do kcws

kcws

Outro código-fonte

not_a_release

Baixar

Citar

Papel de referência BILSTM+CRF Para este modelo de projeto: http://www.aclweb.org/anthology/n16-1030, idcnn+CRF Artigo de referência: https://arxiv.org/abs/1702.02098

Construir

Instale a ferramenta de construção do código Bazel e instale o TensorFlow (atualmente, este projeto requer versão TF 1.0.0Alpha ou acima)
Mude para o diretório de código deste projeto e execute ./configure
Compilar serviços de back -end
Bazel Build // KCWS/CC: SEG_BACKEND_API

trem

Siga o relato oficial de Kaizi Jizhong para responder ao KCWS para obter o endereço de download do corpus:
Descompactar o corpus em um diretório
Mude para o diretório de código e execute:

Python KCWS/Train/Process_anno_file.py <piror Directory> pre_chars_for_w2v.txt

Bazel Build terceiro_party/word2vec: word2vec

Obtenha a lista preliminar de palavras primeiro

./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save-vocab pre_vocab.txt -min-count 3

Processar palavras de baixa frequência python kcws/trep/replyed_unk.py pre_vocab.txt pre_chars_for_w2v.txt chars_for_w2v.txt
Treinamento Word2vec
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -Output Vec.txt -size 50 -Sample 1e -4 -negativo 5 -hs 1 -Binary 0 -iter 5
Construindo ferramentas de corpus de treinamento
Bazel Build KCWs/Train: Gerate_Treining
Gerar materiais
./bazel-bin/kcws/train/gereate_training vec.txt <corpus diretório> all.txt
Obtenha o arquivo de trem.txt, test.txt
Python KCWs/Train/Filter_Sentence.py All.txt

Instale o TensorFlow, mude para o diretório de código KCWS e execute:

python kcws/trem/trens_cws.py--word2vec_path vec.txt ---tain_data_path <caminho absoluto para treinar.txt>--test_data_path test.txt-max_sentence_len 80-learning_rate 0.001 (o modelo odcn odcn é usado, você pode definir o que pode definir o que pode definir o que pode definir o que pode definir.

Gerar vocabulário

Bazel Build KCWS/CC: DUMP_VOCAB

./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/modelos/basic_vocab.txt

Exportar o modelo treinado

Python Tools/freeze_graph.py - -input_graph logs/graf.pbtxt - -input_checkpoint logs/model.ckpt -output_node_names "transições, reshape_7" -output_graph kcws/modelos/seg_model.pbtttt

Faça o download do modelo de anotação de parte da fala (solução temporária, documentos subsequentes fornecem treinamento, exportação, exportação, etc.)
Faça o download do POS_MODEL.PBTXT de https://pan.baidu.com/s/1byMabk para o KCWS/Models/Directory
Execute o serviço da web

./bazel-bin/kcws/cc/seg_backend_api ---model_path = kcws/modelos/seg_model.pbtxt (caminho absoluto para seg_model.pbtxt>) --vocab_path = kcws/modelos/basic_vocab.txt ---max_sntence

Instruções de treinamento para anotação de parte da fala:

https://github.com/koth/kcws/blob/master/pos_train.md

Dicionário personalizado

Atualmente, o dicionário personalizado é suportado no estágio de decodificação. Para métodos de uso específicos, consulte o dicionário KCWS/CC/TEST_SEG.CC está no formato de texto, e cada formato de linha é o seguinte: