Bilstm+CRF Makalah Referensi untuk Model Proyek ini: http://www.aclweb.org/anthology/n16-1030, IDCNN+CRF Referensi Kertas: https://arxiv.org/abs/1702.02098
Instal alat konstruksi kode bazel dan instal TensorFlow (saat ini, proyek ini memerlukan versi TF 1.0.0Alpha atau lebih tinggi)
Beralih ke direktori kode proyek ini dan jalankan ./configure
Kompilasi Layanan Backend
Bazel Build // KCWS/CC: SEG_BACKEND_API
Ikuti akun resmi Kaizi Jizhong untuk membalas KCWS untuk mendapatkan alamat unduhan corpus:

Unzip corpus ke dalam direktori
Beralih ke direktori kode dan jalankan:
Python KCWS/Train/Process_anno_file.py <Corpus Directory> pre_chars_for_w2v.txt
Bazel Build Third_Party/Word2Vec: Word2Vec
Dapatkan daftar kata pendahuluan terlebih dahulu
./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save-vocab pre_vocab.txt -Min-count 3
Proses kata frekuensi rendah python kcws/train/ganti_unk.py pre_vocab.txt pre_chars_for_w2v.txt chars_for_w2v.txt
Pelatihan Word2Vec
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -output vec.txt -size 50 -sample 1e -4 -negatif 5 -hs 1 -binary 0 -iter 5
Membangun Alat Pelatihan Corpus
Bazel Build KCWS/Train: Generate_Training
Menghasilkan bahan
./bazel-bin/kcws/train/generate_training vec.txt <corpus directory> all.txt
Dapatkan file train.txt, test.txt
python kcws/train/filter_sentence.py all.txt
python kcws/train/train_cws.py --word2vec_path vec.txt --train_data_path <jalur absolut ke train.txt> ---test_data_path test.txt-max_sentence_len 80-learning_rate 0.001 (model default adalah model default adalah IDCNN yang default adalah IDCNN adalah IDCNN yang default adalah IDCNN adalah IDCNN adalah IDCNN adalah IDCNN DEARNING, IDCNN DEARNING 0.001 (The Default IDCNN (MAX_Sentence, Model bilstm)
Bazel Build KCWS/CC: DUMP_VOCAB
./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/model/basic_vocab.txt
Python Tools/freeze_graph.py --input_graph log/grafik
Unduh model anotasi bagian-of-speech (solusi sementara, dokumen selanjutnya menyediakan pelatihan model anotasi bagian-dari-ucapan, ekspor, dll.)
Unduh pos_model.pbtxt dari https://pan.baidu.com/s/1bymabk ke KCWS/Model/Direktori
Jalankan Layanan Web
./bazel-bin/kcws/cc/seg_backend_api ---hodel_path = kcws/model/seg_model.pbtxt (jalur absolut ke seg_model.pbtxt>) --vocab_path = kcws/model/dasar_vocab.txt_sentence_sente_path = KCWS/model/dasar_vocab.txt_sentence_sente_sent
https://github.com/koth/kcws/blob/master/pos_train.md
Saat ini, Kamus Kustom didukung pada tahap decoding. Untuk metode penggunaan tertentu, silakan merujuk ke kamus KCWS/CC/test_seg.cc dalam format teks, dan setiap format baris adalah sebagai berikut:
<Entri Kustom> t <dobe>
Misalnya:
Blue Skinny Mushroom 4
Beratnya adalah bilangan bulat positif, umumnya lebih dari 4, semakin besar semakin penting
http://45.32.100.248:9090/
Lampiran: Gunakan model yang sama untuk mengidentifikasi nama perusahaan untuk melatih:
http://45.32.100.248:18080