이 프로젝트 모델에 대한 BILSTM+CRF 참조 용지 : http://www.aclweb.org/anthology/n16-1030, idcnn+crf 참조 용지 : https://arxiv.org/abs/1702.02098
Bazel Code Construction Tool을 설치하고 TensorFlow를 설치하십시오 (현재이 프로젝트는 TF 1.0.0alpha 버전 이상이 필요합니다).
이 프로젝트의 코드 디렉토리로 전환하고 ./configure를 실행하십시오.
백엔드 서비스를 컴파일하십시오
바젤 빌드 // kcws/cc : seg_backend_api
Kaizi Jizhong의 공식 계정을 따라 KCWS에 회신하여 코퍼스 다운로드 주소를 얻으십시오.

코퍼스를 디렉토리로 압축하십시오
코드 디렉토리로 전환하고 실행하십시오.
Python kcws/train/process_anno_file.py <corpus directory> pre_chars_for_w2v.txt
Bazel Build Third_Party/Word2Vec : Word2Vec
먼저 예비 단어 목록을 받으십시오
./bazel-bin/third_party/word2vec/word2vec-train pre_chars_for_w2v.txt-save-vocab pre_vocab.txt -min-count 3
프로세스 저주파 단어 Python KCWS/Train/Replice_unk.py pre_vocab.txt pre_chars_for_w2v.txt chars_for_w2v.txt
교육 Word2vec
./bazel-bin/third_party/word2vec/word2vec-train chars_for_w2v.txt -output vec.txt -size 50 -sample 1e -4 -negative 5 -hs 1 -binary 0 -iter 5
건축 훈련 코퍼스 도구
Bazel Build KCWS/Train : Generate_training
재료를 생성하십시오
./bazel-bin/kcws/train/generate_training vec.txt <corpus directory> all.txt
Train.txt, test.txt 파일을 받으십시오
Python kcws/train/filter_sentence.py all.txt
Python kcws/train/train_cws.py ---word2vec_path vec.txt --train_data_path.txt.txt> --test_data_path test.txt ---max_sentence_len 80--learning_rate 0.001 (기본 idcnn 모델이 사용될 수 있습니다.
Bazel Build KCWS/CC : DUMP_VOCAB
./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/models/basic_vocab.txt
Python 도구/freeze_graph.py -input_graph logs/graph.pbtxt-input_checkpoint logs/model.ckpt -output_node_names "transitions, reshape_7" -output_graph kcws/models/seg_model.pbtxt
부품 연설 주석 모델 다운로드 (임시 솔루션, 후속 문서는 부품 주석 모델 교육, 내보내기 등을 제공합니다).
https://pan.baidu.com/s/1bymabk에서 pos_model.pbtxt를 KCWS/Models/Directory로 다운로드하십시오
웹 서비스를 실행하십시오
./bazel-bin/kcws/cc/seg_backend_api ---model_path = kcws/models/seg_model.pbtxt (seg_model.pbtxt>에 대한 절대 경로) --vocab_path = kcws/models/basic_vocab.txt --max_sentence_len = 80
https://github.com/koth/kcws/blob/master/pos_train.md
현재 사용자 정의 사전은 디코딩 단계에서 지원됩니다. 특정 사용 방법은 KCWS/CC/Test_seg.cc 사전을 텍스트 형식으로 참조하십시오. 각 줄 형식은 다음과 같습니다.
<custion Entry> t <eight>
예를 들어:
푸른 마른 버섯 4
무게는 긍정적 인 정수이며, 일반적으로 4를 초과할수록 더 중요합니다.
http://45.32.100.248:9090/
부록 : 동일한 모델을 사용하여 회사 이름을 식별합니다.
http://45.32.100.248:18080