تنزيل rasa_nlu_gq - تنزيل رمز المصدر rasa_nlu

rasa_nlu_gq

شفرة المصدر الأخرى

1.0.0

تنزيل

rasa nlu gq

Rasa NLU (فهم اللغة الطبيعية) هي أداة لفهم الدلالات الطبيعية. على سبيل المثال ، الموقع الرسمي على النحو التالي:

"أنا أبحث عن مطعم مكسيكي في وسط المدينة"

وإعادة البيانات المهيكلة مثل:

  intent: search_restaurant
  entities: 
    - cuisine : Mexican
    - location : center

مقدمة

المشروع الأصلي على الفرع 0.2.7 ويمكن تبديله بحرية. يعتمد تعديل هذا الإصدار على أحدث إصدار من RASA. تم تعديل المكون الأصلي في RASA_NLU_GAO ، ولم يتم إجراء أي إضافات جديدة. علاوة على ذلك ، فإن الممارسات السابقة مرهقة بعض الشيء ولا تحتاج إلى تعديلها في رمز مصدر RASA. يمكنك تحميل المكون الأصلي مباشرة كملحق ، ويرثون أحدث إصدار من RASA ، وتحديثه في الوقت الفعلي.

ميزات جديدة

الميزات الجديدة التي تمت إضافتها حاليًا هي كما يلي (يرجى تنزيل أحدث إصدار من Rasa-Nlu-Gao) (تحرير على 2019.06.24):

تمت إضافة نموذج جديد للتعرف على الكيان ، أحدهما هو BILSTM+CRF والآخر هو نموذج إيلاء توسيع CRF IDCNN+CRF. تكوين ملف YML المقابل كما يلي:

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "CountVectorsFeaturizer"
    token_pattern: "(?u)bw+b"
  - name: "EmbeddingIntentClassifier"
  - name: "rasa_nlu_gao.extractors.bilstm_crf_entity_extractor.BilstmCRFEntityExtractor"
    lr: 0.001
    char_dim: 100
    lstm_dim: 100
    batches_per_epoch: 10
    seg_dim: 20
    num_segs: 4
    batch_size: 200
    tag_schema: "iobes"
    model_type: "bilstm" # 模型支持两种idcnn膨胀卷积模型或bilstm双向lstm模型
    clip: 5
    optimizer: "adam"
    dropout_keep: 0.5
    steps_check: 100

يمكن إضافة وحدة جديدة لشرح التعليقات التوضيحية لجزء من الكلام Jieba ، والتي يمكنها بسهولة تحديد جزء الكلام الذي يمكن أن يدعمه Jieba ، مثل الأسماء ، أسماء الأماكن ، أسماء المؤسسات ، إلخ.

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "CRFEntityExtractor"
  - name: "rasa_nlu_gao.extractors.jieba_pseg_extractor.JiebaPsegExtractor"
    part_of_speech: ["nr", "ns", "nt"]
  - name: "CountVectorsFeaturizer"
    OOV_token: oov
    token_pattern: "(?u)bw+b"
  - name: "EmbeddingIntentClassifier"

تمت إضافة نية تعديل عكسية جديدة استنادًا إلى الكيان ، وتكوين الملف المقابل كما يلي:

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "CRFEntityExtractor"
  - name: "JiebaPsegExtractor"
  - name: "CountVectorsFeaturizer"
    OOV_token: oov
    token_pattern: '(?u)bw+b'
  - name: "EmbeddingIntentClassifier"
  - name: "rasa_nlu_gao.classifiers.entity_edit_intent.EntityEditIntent"
    entity: ["nr"]
    intent: ["enter_data"]
    min_confidence: 0

تمت إضافة ميزة جديدة من ناقل الكلمة المستخرجة بواسطة نموذج BET ، وملفات التكوين المقابلة هي كما يلي:

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "rasa_nlu_gao.featurizers.bert_vectors_featurizer.BertVectorsFeaturizer"
    ip: '127.0.0.1'
    port: 5555
    port_out: 5556
    show_server_config: True
    timeout: 10000
  - name: "EmbeddingIntentClassifier"
  - name: "CRFEntityExtractor"

تتم إضافة تكوينات جديدة لاستخدام وحدة المعالجة المركزية و GPU ، بشكل رئيسي EmbeddingIntentClassifier و ner_bilstm_crf ، مكونان يستخدمان tensorflow ، على النحو التالي (بالطبع ، لا يمكن تكوين config_proto ، وستستخدم القيمة الافتراضية جميع الموارد):

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "CountVectorsFeaturizer"
    token_pattern: '(?u)bw+b'
  - name: "EmbeddingIntentClassifier"
    config_proto: {
      "device_count": 4,
      "inter_op_parallelism_threads": 0,
      "intra_op_parallelism_threads": 0,
      "allow_growth": True
    }
  - name: "rasa_nlu_gao.extractors.bilstm_crf_entity_extractor.BilstmCRFEntityExtractor"
    config_proto: {
      "device_count": 4,
      "inter_op_parallelism_threads": 0,
      "intra_op_parallelism_threads": 0,
      "allow_growth": True
    }

تم إضافة مصنف embedding_bert_intent_classifier ، وملفات التكوين المقابلة هي كما يلي:

  language: "zh"

  pipeline:
  - name: "JiebaTokenizer"
  - name: "rasa_nlu_gao.featurizers.bert_vectors_featurizer.BertVectorsFeaturizer"
    ip: '127.0.0.1'
    port: 5555
    port_out: 5556
    show_server_config: True
    timeout: 10000
  - name: "rasa_nlu_gao.classifiers.embedding_bert_intent_classifier.EmbeddingBertIntentClassifier"
  - name: "CRFEntityExtractor"

intent_estimator_classifier_tensorflow_embedding_bert يستخدم ناقل الكلمة الأساسي BERT ، يتم إكمال مصنف الخلفية باستخدام API ADVALOW ADVALOW ، TF.ESTIMATOR ، TF.DATA ، TF.EXAMPLE

 language: "zh"

pipeline:
- name: "JiebaTokenizer"
- name: "rasa_nlu_gao.featurizers.bert_vectors_featurizer.BertVectorsFeaturizer"
  ip: '127.0.0.1'
  port: 5555
  port_out: 5556
  show_server_config: True
  timeout: 10000
- name: "rasa_nlu_gao.classifiers.embedding_bert_intent_estimator_classifier.EmbeddingBertIntentEstimatorClassifier"
- name: "SpacyNLP"
- name: "CRFEntityExtractor"