BILSTM+CRF-Referenzpapier für dieses Projektmodell: http://www.aclweb.org/anthology/n16-1030, IDCNN+CRF-Referenzpapier: https://arxiv.org/abs/1702.02098
Installieren Sie das Bazel -Code -Konstruktionstool und installieren Sie den TensorFlow (derzeit erfordert dieses Projekt TF 1.0.0alpha -Version oder höher)
Wechseln Sie zum Codeverzeichnis dieses Projekts und führen Sie ./Configure aus.
Backend -Dienste kompilieren
Bazel Build // KCWS/CC: SEG_BACKEND_API
Folgen Sie dem offiziellen Bericht von Kaizi Jizhong, um KCWS zu antworten, um die Corpus -Download -Adresse zu erhalten:

Entpacken Sie den Korpus in ein Verzeichnis
Wechseln Sie zum Codeverzeichnis und führen Sie aus:
Python KCWS/Train/process_anno_file.py <Corpus -Verzeichnis> pre_chars_for_w2v.txt
Bazel Build dritter_Party/Word2VEC: Word2Vec
Holen Sie sich zuerst die vorläufige Wortliste
./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save-vocab pre_vocab.txt -min-count 3
Prozess Niederfrequenzwörter Python kcws/train/ersatz_unk.py pre_vocab.txt pre_chars_for_w2v.txt chars_for_w2v.txt
Training Word2Vec
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -output vec.txt -size 50 -Sample 1E -4 -negative 5 -HS 1 -Binär 0 -iter 5
Bauen von Tools für Trainingskorpus
Bazel Build KCWS/Zug: generate_training
Materialien erzeugen
./bazel-bin/kcws/train/generate_training vec.txt <Corpus-Verzeichnis> All.txt
Holen Sie sich die Datei Train.txt, test.txt
Python KCWS/Train/Filter_Sentce.py All.txt
Python KCWS/Train/Train_cws.py--Word2VEC_PATH VEC.TXT --TRAIN_DATA_PATH <Absolute Pfad zu trainieren Modell)
Bazel Build KCWS/CC: DUPP_VOCAB
./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/models/basic_vocab.txt
Python Tools/Freeze_Graph.py --input_Graph logs/graph.pbtxt ---input_checkpoint logs/model.ckpt -output_node_names "Übergänge, Reshape_7" -Output_Graph KCWS/Models/SEG_MODEL.PBTXE
Download-Annotationsmodell für ein Speech-Annotationsmodell (Temporäre Lösung, nachfolgende Dokumente bieten ein Annotationsmodell Training für ein Speech-Annotationsmodell, Export usw.)
Laden Sie pos_model.pbtxt herunter von https://pan.baidu.com/s/1BYMABK zum KCWS/Models/Verzeichnis
Führen Sie den Webdienst aus
./bazel-bin/kcws/cc/seg_backend_api ---model_path = kcws/models/seg_model.pbtxt (Absolute Pfad zu Seg_Model.pbtxt>) --vocab_path = kcws/models/Basic_vocab.txt--max_sentce_len = 80
https://github.com/koth/kcws/blob/master/pos_train.md
Derzeit wird das benutzerdefinierte Wörterbuch in der Dekodierungsphase unterstützt. Für spezifische Verwendungsmethoden finden Sie im KCWS/CC/test_seg.cc -Wörterbuch im Textformat, und jedes Zeilenformat lautet wie folgt:
<Benutzerdefinierte Eintrag> T <gewicht>
Zum Beispiel:
Blauer dünner Pilz 4
Das Gewicht ist eine positive Ganzzahl, im Allgemeinen mehr als 4, desto größer ist umso wichtiger
http://45.32.100.248:9090/
ANHANG: Verwenden Sie dasselbe Modell, um den Firmennamen zum Training zu identifizieren:
http://45.32.100.248:18080