BILSTM+CRF กระดาษอ้างอิงสำหรับรุ่นโครงการนี้: http://www.aclweb.org/anthology/n16-1030, Idcnn+เอกสารอ้างอิง CRF: https://arxiv.org/abs/1702.02098
ติดตั้งเครื่องมือก่อสร้างรหัส Bazel และติดตั้ง TensorFlow (ปัจจุบันโครงการนี้ต้องใช้เวอร์ชัน TF 1.0.0Alpha หรือสูงกว่า)
เปลี่ยนไปใช้ไดเรกทอรีรหัสของโครงการนี้และเรียกใช้/กำหนดค่า
รวบรวมบริการแบ็กเอนด์
bazel build // kcws/cc: seg_backend_api
ทำตามบัญชีอย่างเป็นทางการของ Kaizi Jizhong เพื่อตอบกลับ KCWS เพื่อรับที่อยู่ดาวน์โหลด Corpus:

เปิดเครื่องรูดคลังข้อมูลลงในไดเรกทอรี
เปลี่ยนไปใช้ไดเรกทอรีรหัสแล้วเรียกใช้:
Python kcws/train/process_anno_file.py <Corpus Directory> pre_chars_for_w2v.txt
bazel สร้าง third_party/word2vec: word2vec
รับรายการคำเบื้องต้นก่อน
./bazel-bin/third_party/Word2Vec/Word2Vec -train pre_chars_for_w2v.txt -save-vocab pre_vocab.txt -min-count 3
ประมวลผลคำที่มีความถี่ต่ำ python kcws/train/ouplic_unk.py pre_vocab.txt pre_chars_for_w2v.txt Chars_for_w2v.txt
การฝึกอบรม Word2Vec
./bazel-bin/third_party/Word2Vec/Word2Vec -TRAIN CHARS_FOR_W2V.TXT -OUTPUT VEC.TXT -SIZE 50 -SAMPLE 1E -4 -NEGATION 5 -HS 1 -Binary 0 -iter 5
การสร้างเครื่องมือการฝึกอบรมคลังข้อมูล
Bazel สร้าง kcws/train: generate_training
สร้างวัสดุ
./bazel-bin/kcws/train/generate_training vec.txt <Corpus Directory> all.txt
รับไฟล์ train.txt, test.txt
Python kcws/train/filter_sentence.py all.txt
Python kcws/train/train_cws.py-word2Vec_Path vec.txt-train_data_path <เส้นทางสัมบูรณ์ไปยัง train.txt>--test_data_path test.txt-max_sentence_len 80-learning_rate 0.001
Bazel Build KCWS/CC: DUMP_VOCAB
./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/models/basic_vocab.txt
เครื่องมือ Python/freeze_graph.py -input_graph logs/graph.pbtxt -input_checkpoint logs/model.ckpt -OUTPUT_NODE_NAMES
ดาวน์โหลดรูปแบบคำอธิบายประกอบส่วนหนึ่งของการพูด (โซลูชันชั่วคราวเอกสารที่ตามมาให้การฝึกอบรมรูปแบบคำอธิบายประกอบส่วนหนึ่งของการส่งออก ฯลฯ )
ดาวน์โหลด pos_model.pbtxt จาก https://pan.baidu.com/s/1bymabk ไปยัง kcws/models/directory
เรียกใช้บริการเว็บ
./bazel-bin/kcws/cc/seg_backend_api-model_path = kcws/models/seg_model.pbtxt (เส้นทางสัมบูรณ์ไปยัง seg_model.pbtxt>)-vocab_path = kcws/models/basic_vocab.txt
https://github.com/koth/kcws/blob/master/pos_train.md
ปัจจุบันพจนานุกรมที่กำหนดเองได้รับการสนับสนุนในขั้นตอนการถอดรหัส สำหรับวิธีการใช้งานเฉพาะโปรดดูที่พจนานุกรม KCWS/CC/Test_Seg.CC อยู่ในรูปแบบข้อความและแต่ละรูปแบบบรรทัดมีดังนี้:
<รายการที่กำหนดเอง> t <eed Weight>
ตัวอย่างเช่น:
เห็ดผอมสีฟ้า 4
น้ำหนักเป็นจำนวนเต็มบวกโดยทั่วไปมากกว่า 4 ยิ่งมีความสำคัญมากเท่าไหร่
http://45.32.100.248:9090/
ภาคผนวก: ใช้โมเดลเดียวกันเพื่อระบุชื่อ บริษัท เพื่อฝึกอบรม:
http://45.32.100.248:18080