Bilstm+CRF Справочная бумага для этой модели проекта: http://www.aclweb.org/anthology/n16-1030, idcnn+Справочный документ CRF: https://arxiv.org/abs/1702.02098
Установите инструмент Bazel Code Construction и установите TensorFlow (в настоящее время этот проект требует версии TF 1.0.0Alpha или выше)
Переключитесь на каталог кода этого проекта и запустите ./configure
Скомпилируйте бэкэнд услуги
Bazel Build // KCWS/CC: SEG_BACKEND_API
Следуйте официальному отчету Kaizi Jizhong, чтобы ответить KCWS, чтобы получить адрес загрузки корпуса:

Разанипировать корпус в каталог
Переключитесь на каталог кода и запустите:
Python kcws/train/process_anno_file.py <Corpus Directory> pre_chars_for_w2v.txt
Bazel Build Third_Party/Word2VEC: Word2VEC
Сначала получить предварительный список слов
./bazel-bin/third_party/word2vec/word2vec -train pre_chars_for_w2v.txt -save -vocab pre_vocab.txt -min -count 3
Процесс низкочастотный слова Python kcws/train/replace_unk.py pre_vocab.txt pre_chars_for_w2v.txt chars_for_w2v.txt
Обучение Word2VEC
./bazel-bin/third_party/word2vec/word2vec -train chars_for_w2v.txt -Output vec.txt -size 50 -sample 1e -4 -negative 5 -hs 1 -barinal 0 -iter 5
Строительство инструментов обучения корпуса
Bazel Build KCWS/Train: Generate_training
Генерировать материалы
./bazel-bin/kcws/train/generate_training vec.txt <каталог корпуса> all.txt
Получить train.txt, файл test.txt
Python kcws/train/filter_sentence.py all.txt
Python kcws/train/train_cws.py-word2vec_path vec.txt-train_data_path <абсолютный путь к train.txt>-test_data_path test.txt-max_sentence_len 80-learning_rate 0.001 (не совместно используется модель, вы можете установить,-«Неисправность»-«Неиседженный». Модель Bilstm)
Bazel Build KCWS/CC: DIMP_VOCAB
./bazel-bin/kcws/cc/dump_vocab vec.txt kcws/models/basic_vocab.txt
Python Tools/freeze_graph.py -input_graph logs/graph.pbtxt -input_checkpoint logs/model.ckpt -output_node_names "переходы, reshape_7" - -output_graph kcws/seg_model.pbtxt
Скачать модель аннотации частичной речи (временное решение, последующие документы обеспечивают обучение модели аннотации частичной речи, экспорт и т. Д.)
Скачать pos_model.pbtxt с https://pan.baidu.com/s/1bymabk в KCWS/Models/Directory
Запустите веб -сервис
./bazel-bin/kcws/cc/seg_backend_api ---model_path = kcws/model
https://github.com/koth/kcws/blob/master/pos_train.md
В настоящее время пользовательский словарь поддерживается на стадии декодирования. Для конкретных методов использования, пожалуйста, обратитесь к словарю KCWS/CC/test_seg.cc в формате текста, и каждый формат строки выглядит следующим образом:
<Пользовательская запись> t <вес>
например:
Синий худой гриб 4
Вес является положительным целым числом, как правило, более 4, чем больше, тем более важным
http://45.32.100.248:9090/
Приложение: используйте ту же модель, чтобы идентифицировать название компании для обучения:
http://45.32.100.248:18080