BILSTM+CRF ورقة مرجعية لهذا المشروع نموذج المشروع: http://www.aclweb.org/anthology/n16-1030 ، idcnn+CRF ورقة مرجع: https://arxiv.org/abs/1702.020988
قم بتثبيت أداة إنشاء رمز البازل وتثبيت TensorFlow (حاليًا ، يتطلب هذا المشروع إصدار TF 1.0.0Alpha أو أعلى)
قم بالتبديل إلى دليل التعليمات البرمجية لهذا المشروع وقم بتشغيل ./Configure
تجميع الخدمات الخلفية
Bazel Build // KCWS/CC: SEG_BACKEND_API
اتبع الحساب الرسمي لـ Kaizi Jizhong للرد على KCWS للحصول على عنوان تنزيل Corpus:

قم بفك ضغط الجسم في دليل
التبديل إلى دليل الرمز وتشغيله:
Python KCWS/Train/Process_anno_file.py <corpus directory> pre_chars_for_w2v.txt
Bazel Build Third_Party/Word2Vec: Word2Vec
احصل على قائمة الكلمات الأولية أولاً
./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save -vocab pre_vocab.txt -min -count 3
معالجة كلمات منخفضة الترددات Python KCWS/Train/Replace_unk.py pre_vocab.txt pre_chars_for_w2v.txt chars_for_w2v.txt
تدريب Word2Vec
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -utput vec.txt -size 50 -samed
بناء أدوات تجسس التدريب
Bazel Build KCWS/Train: Generate_training
توليد المواد
./bazel-bin/kcws/train/generate_training vec.txt <corpus directory> all.txt
احصل على ملف train.txt ، test.txt
Python KCWS/Train/Filter_sentence.py all.txt
Python KCWS/Train/Train_cws.py-Word2VEC_PATH VEC.TXT-TRAIN_DATA_PATH <المسار المطلق إلى TRAIN.TXT>-test_data_path test.txt-max_sentence_len 80--learning_rate 0.001 (طابق idcnn default يتم استخدامه ، يمكنك تعيين المعلمة "-exmer".
Bazel Build KCWS/CC: DUMP_VOCAB
./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/models/basic_vocab.txt
أدوات Python/freeze_graph.py -input_graph logs/graph.pbtxt -input_checkpoint logs/model.ckpt -
قم بتنزيل نموذج تعليق توضيح جزء من الكلام (الحل المؤقت ، فإن المستندات اللاحقة توفر التدريب على نموذج التعليقات التوضيحية للجزء المقدم ، التصدير ، إلخ)
تنزيل pos_model.pbtxt من https://pan.baidu.com/s/1bymabk إلى KCWS/النماذج/الدليل
تشغيل خدمة الويب
./bazel-bin/kcws/cc/seg_backend_api-model_path = kcws/models/seg_model.pbtxt (المسار المطلق إلى seg_model.pbtxt>)-vocab_path = kcws/models/basic_vocab.txt-max_sentence_
https://github.com/koth/kcws/blob/master/pos_train.md
حاليًا ، يتم دعم القاموس المخصص في مرحلة فك التشفير. للحصول على طرق استخدام محددة ، يرجى الرجوع إلى قاموس KCWS/CC/Test_Seg.cc بتنسيق نص ، وكل تنسيق سطر كما يلي:
<دخول مخصص> t <ergular>
على سبيل المثال:
الفطر الأزرق النحيف 4
الوزن هو عدد صحيح إيجابي ، بشكل عام أكثر من 4 ، كلما زاد أهمية أكبر
http://45.32.100.248:9090/
التذييل: استخدم نفس النموذج لتحديد اسم الشركة للتدريب:
http://45.32.100.248:18080