このプロジェクトモデルのbilstm+CRFリファレンスペーパー:http://www.aclweb.org/anthology/n16-1030、idcnn+crfリファレンスペーパー:https://arxiv.org/abs/1702.02098
Bazel Code Construction Toolをインストールし、Tensorflowをインストールします(現在、このプロジェクトにはTF 1.0.0alphaバージョン以上が必要です)
このプロジェクトのコードディレクトリに切り替えて、./configureを実行します
バックエンドサービスをコンパイルします
Bazel Build // KCWS/CC:seg_backend_api
Kaizi Jizhongの公式アカウントに従って、KCWSに返信して、コーパスのダウンロードアドレスを取得します。

コーパスをディレクトリに解凍します
コードディレクトリに切り替えて実行します。
python kcws/train/process_anno_file.py <corpus directory> pre_chars_for_w2v.txt
Bazel Build Third_Party/word2vec:word2vec
最初に予備の単語リストを取得します
./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save -vocab pre_vocab.txt -min -count 3
プロセス低周波単語python KCWS/TRAIN/LESTY_UNK.py pre_vocab.txt pre_chars_for_w2v.txt chars_for_w2v.txt
トレーニングword2vec
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -output vec.txt -size 50 -sample 1e -4 -negative 5 -hs 1 -binary 0 -iter 5
ビルディングトレーニングコーパスツール
Bazel Build KCWS/Train:Generate_Training
材料を生成します
./bazel-bin/kcws/train/generate_training vec.txt <corpus directory> all.txt
train.txt、test.txtファイルを入手してください
python kcws/train/filter_sentence.py all.txt
python kcws/train/train_cws.py - word2vec_path vec.txt -train_data_path <to rien.txt>への絶対パス>
Bazel Build KCWS/CC:DUMP_VOCAB
./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/models/basic_vocab.txt
python tools/freeze_graph.py - input_graph logs/graph.pbtxt - input_checkpoint logs/model.ckpt --output_node_names "transitions、reshape_7" --output_graph kcws/models/seg_model.pbtxtxtx
一部のスピーチアニットモデルをダウンロードします(一時的な解決策、後続のドキュメントは、スピーチの一部のアニテーションモデルトレーニング、エクスポートなどを提供します)
https://pan.baidu.com/s/1bymabkからpos_model.pbtxtをkcws/models/directoryにダウンロードします
Webサービスを実行します
./bazel-bin/kcws/cc/seg_backend_api ---model_path = kcws/models/seg_model.pbtxt(seg_model.pbtxt>への絶対パス)-vocab_path = kcws/models/models/basic_vocab.txt -max_sentence_len = 80
https://github.com/koth/kcws/blob/master/pos_train.md
現在、カスタム辞書はデコード段階でサポートされています。特定の使用方法については、KCWS/CC/TEST_SEG.CC Dictionaryはテキスト形式で、各行形式は次のとおりです。
<カスタムエントリ> t <Weight>
例えば:
青いスキニーマッシュルーム4
重量は正の整数であり、一般的には4つ以上、大きくなるほど重要です
http://45.32.100.248:9090/
付録:同じモデルを使用して、会社名を識別してトレーニングします。
http://45.32.100.248:18080