rasa_nlu_gq 다운로드 rasa_nlu_gq 소스 코드 다운로드

rasa_nlu_gq

기타 소스코드

1.0.0

다운로드

RASA NLU GQ

Rasa NLU (자연어 이해)는 자연 의미를 이해하기위한 도구입니다. 예를 들어 공식 웹 사이트는 다음과 같습니다.

"나는 도시 중심에서 멕시코 레스토랑을 찾고있다"

그리고 다음과 같은 구조화 된 데이터를 반환합니다.

  intent: search_restaurant
  entities: 
    - cuisine : Mexican
    - location : center

소개

원래 프로젝트는 Branch 0.2.7에 있으며 자유롭게 전환 할 수 있습니다. 이 버전의 수정은 최신 버전의 RASA를 기반으로합니다. RASA_NLU_GAO의 원래 구성 요소가 수정되었으며 새로운 추가 기능이 없습니다. 또한, 이전 관행은 약간 번거 롭고 RASA 소스 코드에서 수정할 필요가 없습니다. 원래 구성 요소를 Addon으로 직접로드하고 최신 버전의 RASA를 상속받은 다음 실시간으로 업데이트 할 수 있습니다.

새로운 기능

현재 추가 된 새로운 기능은 다음과 같습니다 (최신 RASA-NLU-GAO 버전을 다운로드하십시오) (2019.06.24 편집) :

엔티티 인식을위한 새로운 모델이 추가되었으며, 하나는 BILSTM+CRF이고 다른 하나는 IDCNN+CRF 확장 컨볼 루션 모델입니다. 해당 YML 파일 구성은 다음과 같습니다.

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "CountVectorsFeaturizer"
    token_pattern: "(?u)bw+b"
  - name: "EmbeddingIntentClassifier"
  - name: "rasa_nlu_gao.extractors.bilstm_crf_entity_extractor.BilstmCRFEntityExtractor"
    lr: 0.001
    char_dim: 100
    lstm_dim: 100
    batches_per_epoch: 10
    seg_dim: 20
    num_segs: 4
    batch_size: 200
    tag_schema: "iobes"
    model_type: "bilstm" # 模型支持两种idcnn膨胀卷积模型或bilstm双向lstm模型
    clip: 5
    optimizer: "adam"
    dropout_keep: 0.5
    steps_check: 100

jieba 부분 말하기 주석을위한 새로운 모듈을 추가 할 수 있으며, 이름, 장소 이름, 조직 이름 등과 같이 Jieba가 지원할 수있는 부분을 쉽게 식별 할 수 있습니다. 해당 YML 파일 구성은 다음과 같습니다.

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "CRFEntityExtractor"
  - name: "rasa_nlu_gao.extractors.jieba_pseg_extractor.JiebaPsegExtractor"
    part_of_speech: ["nr", "ns", "nt"]
  - name: "CountVectorsFeaturizer"
    OOV_token: oov
    token_pattern: "(?u)bw+b"
  - name: "EmbeddingIntentClassifier"

엔티티를 기반으로 한 새로운 역 수정 의도가 추가되었으며 해당 파일 구성은 다음과 같습니다.

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "CRFEntityExtractor"
  - name: "JiebaPsegExtractor"
  - name: "CountVectorsFeaturizer"
    OOV_token: oov
    token_pattern: '(?u)bw+b'
  - name: "EmbeddingIntentClassifier"
  - name: "rasa_nlu_gao.classifiers.entity_edit_intent.EntityEditIntent"
    entity: ["nr"]
    intent: ["enter_data"]
    min_confidence: 0

BET 모델로 추출한 단어 벡터의 새로운 기능이 추가되었으며 해당 구성 파일은 다음과 같습니다.

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "rasa_nlu_gao.featurizers.bert_vectors_featurizer.BertVectorsFeaturizer"
    ip: '127.0.0.1'
    port: 5555
    port_out: 5556
    show_server_config: True
    timeout: 10000
  - name: "EmbeddingIntentClassifier"
  - name: "CRFEntityExtractor"

CPU 및 GPU 활용에 대한 새로운 구성이 추가되며, 주로 EmbeddingIntentClassifier 및 ner_bilstm_crf , TensorFlow를 사용하는 두 가지 구성 요소가 다음과 같이 구성됩니다 (물론 Config_Proto는 구성 할 수 없으며 기본 값은 모든 리소스를 사용합니다).

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "CountVectorsFeaturizer"
    token_pattern: '(?u)bw+b'
  - name: "EmbeddingIntentClassifier"
    config_proto: {
      "device_count": 4,
      "inter_op_parallelism_threads": 0,
      "intra_op_parallelism_threads": 0,
      "allow_growth": True
    }
  - name: "rasa_nlu_gao.extractors.bilstm_crf_entity_extractor.BilstmCRFEntityExtractor"
    config_proto: {
      "device_count": 4,
      "inter_op_parallelism_threads": 0,
      "intra_op_parallelism_threads": 0,
      "allow_growth": True
    }

embedding_bert_intent_classifier Classifier가 추가되었으며 해당 구성 파일은 다음과 같습니다.

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "rasa_nlu_gao.featurizers.bert_vectors_featurizer.BertVectorsFeaturizer"
    ip: '127.0.0.1'
    port: 5555
    port_out: 5556
    show_server_config: True
    timeout: 10000
  - name: "rasa_nlu_gao.classifiers.embedding_bert_intent_classifier.EmbeddingBertIntentClassifier"
  - name: "CRFEntityExtractor"

기본 단어 벡터가 BERT를 사용하면 TensorFlow Advanced API, TF.EStimator, TF.Data, TF.EXALLE, TF.SAVED_MODEL intent_estimator_classifier_tensorflow_embedding_bert CLASSIFIER를 사용하여 백엔드 분류기가 완료됩니다.

 language: "zh"

pipeline:
- name: "JiebaTokenizer"
- name: "rasa_nlu_gao.featurizers.bert_vectors_featurizer.BertVectorsFeaturizer"
  ip: '127.0.0.1'
  port: 5555
  port_out: 5556
  show_server_config: True
  timeout: 10000
- name: "rasa_nlu_gao.classifiers.embedding_bert_intent_estimator_classifier.EmbeddingBertIntentEstimatorClassifier"
- name: "SpacyNLP"
- name: "CRFEntityExtractor"