تنزيل full lattice search - تنزيل رمز مصدر full lattice search

full lattice search

شفرة المصدر الأخرى

2.0.0 for Elasticsearch 7.3.0

تنزيل

بحث شعرية كاملة

البحث الكامل عن الشبكات الاحتمالية مع Elasticsearch!

مثال شعرية محاذاة الموقع

ملخص

يتيح هذا البرنامج المساعد Elasticsearch البحث عبر النصوص في شكل هياكل شعرية احتمالية. تكون هذه الشاشات في النموذج الناتج عن طريق التعرف على الكلام الآلي (ASR) أو الكلام إلى النص (STT) ، والتعرف على الأحرف البصرية (OCR) ، والترجمة الآلية (MT) ، وتوصيل الصور الآلي ، وما إلى ذلك. (على سبيل المثال في الموقع الأول أدناه ، المخرجات المحتملة هي "و" A "). في حالة STT ، ستكون المواقع هي نطاقات الوقت ، في حالة OCR ، يمكن أن تكون المواقع إحداثيات XY ، أو ربما موقع ترتيب القراءة. كل خرج محتمل له احتمال مرتبط بالحدوث في هذا الموقع مما يسمح بتأثر تسجيل الأهمية بجودة إخراج الشبكة.

شاهد البدء في تجربتها.

البرنامج المساعد

يتكون البرنامج المساعد من ثلاثة مكونات:

LatticeTokenFilter - مرشح رمزي مخصص لفهرسة تيارات رمز الشبكة ، والتي تم تصميمها لاستخدامها كجزء من سلسلة تحليل.
Latticefield - حقل مخصص لتخزين تكوين LatticetokenFilter للوصول في وقت الاستعلام. (انظر القسم أدناه في Latticefield للحصول على شرح حول سبب ضرورة ذلك)
Matchlatticequery - استعلام مخصص للبحث في LatticeFields تم تحليل

latticeTokenFilter

مرشح رمزي من lattice التي تعالج دفق رمز شعرية. تشير الرموز في التيار إلى موضع الرمز المميز ، مما يسمح للتيار بتمثيل بنية شعرية مثل تلك أعلاه. تحتوي الرموز في الدفق أيضًا على درجة ، يتم تخزينها في الحمولة الرمزية عند فهرستها بحيث يمكن استخدامها للتأثير على التسجيل.

يقبل مرشح الرمز المميز الرموز في أحد التنسيقين. تم تعيين التنسيق باستخدام معلمة lattice_format ، والتي يمكن ضبطها على lattice ، أو audio .

`lattice_format=lattice`

يجب أن تكون الرموز في الشكل

<token:string>|<position:int>|<rank:int>|<score:float>

مثال دفق: the|0|0|0.9 ، quick|1|0|0.6 ، brick|1|1|0.2 ، fox|2|0|0.5 ، box|2|1|0.09 ، jumped|3|0|1.0

مثال 1

في المثال أعلاه ، سيكون الرموز quick brick فهرسة في نفس الموقف ، لأن كلاهما لديه موقع على 1.

token الرمز المميز للسلسلة الفعلية المراد البحث عنها ومعالجتها بواسطة مرشحات متابعة
position هو الموضع العالمي للرمز المميز في المستند المصدر (المستخدم لتحديد ما إذا كان الرمز المميز يجب أن يكون أماكن في نفس موقع الرمز المميز السابق)
rank رتبة الرمز المميز بالنسبة للرموز الأخرى الممكنة في هذا الموقف (0 هي المرتبة الأكثر احتمالا)
score تعويم بين 0.0 و 1.0 (شامل). احتمال هذا الرمز المميز في هذا الموقف. لاحظ أنه إذا كان لديك بالفعل درجة صفر ، فلن يتم إرجاع الرمز المميز هو بحث ، وربما يجب حذفه من الدفق.

`lattice_format=audio`

تحتوي الرموز على جميع الحقول من تنسيق lattice مع إضافة start_time و stop_time .

يجب أن تكون الرموز في الشكل

مثال على الدفق: the|0|0|0.9|0.15|0.25 ، Quick | brick|1|1|0.2|0.25|0.5 quick|1|0|0.6|0.25|0.5 box|2|1|0.09|1.0|1.3 fox|2|0|0.5|1.0|1.3 ، fox jumped|3|0|1.0|2.0|2.5

مثال 2

في المثال أعلاه audio_position_increment_seconds سيتم فهرس الرموز quick brick في نفس الموضع ، لأن كلاهما لديه موقع على 1. حاليًا ، يبدو المرشح أوقات بدء الرمز المميز فقط

إذا كان audio_position_increment_seconds=0.01 في المثال أعلاه the فهرسة مع موضع 15 ؛ سيتم فهرسة quick brick في موقع 25 ؛ إلخ.

start_time وقت البدء في ثوانٍ من هذا الرمز المميز بالنسبة لبداية الصوت المصدر
stop_time وقت البدء في ثوانٍ من الرمز المميز هذا بالنسبة لبداية الصوت المصدر

تشمل المعلمات:

lattice_format (الافتراضي هو شعرية)
- يحدد الحقول في رمز شعرية إما audio أو lattice
- يسمح بتأثر الموضع بالمسافة بين الرموز في المستند المصدر.
  انظر audio_position_increment_seconds
score_buckets (الافتراضي ليس ازدواجية)
- ضع الرموز المكررة في نفس موضع الرمز المميز الأصلي بناءً على عتبة النتيجة. هذا يخترق التردد على المصطلح بحيث يتطابق مع الرموز المميزة للتسجيل الأعلى أكثر من رموز التهديف المنخفضة. (انظر التكرار الرمزي مع دلاء الدرجات في قسم القيود أدناه.)
- للحصول على قيمة [0.9, 10, 0.8, 8, 0.7, 7, 0.2, 1] ، سيتم تكرار الرموز مع درجة> = 0.9 10 مرات ؛ سيتم تكرار الرموز ذات النتيجة> = 0.8 8 مرات ، إلخ.
audio_position_increment_seconds (الافتراضي هو 0.01)
- بالنسبة lattice=format=audio فهذه هي الدقة التي يتم فيها ترميز أوقات الصوت في موضعها في الفهرس
- سيكون موضع الرمز المميز floor(token_start_time / audio_position_increment_seconds)

Latticefield

حقل من النوع lattice يحمل معلمات من latticeTokenFilter للرجوع إليها في وقت البحث. وظائف تمامًا مثل حقل النص.

إذا كنت تستخدم lattice_format=audio فأنت بحاجة إلى استخدام نوع حقل lattice لـ MatchLatticequeries للعمل بشكل صحيح مع الأوقات.

ملاحظة: هذا موجود فقط لأنه لا يبدو أن هناك وسيلة للحصول على المعلومات الضرورية (أو أي) من المحلل في وقت الاستعلام. أعتقد أنه يمكن أن يكون هناك getChainAware() أو طريقة مماثلة تمت إضافتها إلى AnalysisProvider التي تعمل على غرار SynonymGraphTokenFilterFactory.getChainAwareTokenFilterFactory() داخل AnalysisRegistry . (لمزيد من التفاصيل ، راجع التعليق في الجزء العلوي من هذا الفصل)

تشمل المعلمات:

يجب أن يتطابق lattice_format مع تكوين مجموعة LatticeTokenFilter في هذا الحقل.
يجب أن يتطابق audio_position_increment_seconds مع تكوين مجموعة LatticeTokenFilter التي تم تعيينها على هذا الحقل.

Matchlatticequery

استعلام من النوع match_lattice يستفسر حقل lattice تم تكوينه باستخدام مرشح رمز lattice .

يؤدي spannearquery ملفوفة في latticepayloadscorequery (امتداد payloadscorequery) ، والذي يستخدم الدرجات المشفرة في كل حمولة رمزية لتسجيل فترات مطابقة. يتم الجمع بين النتيجة من كل فترة لإعطاء درجة المستند (انظر معلمة payload_function للحصول على التفاصيل). في حالة تعيين include_span_score ، يتم ضرب النتيجة أعلاه بواسطة درجة التشابه المكونة.

تشمل المعلمات:

عدد slop من الرموز المميزة المسموح بها في المباراة
slop_seconds المستخدمة عند lattice_format=audio . كحد أقصى الثواني المسموح بها المباراة.
in_order ما إذا كان يجب أن يظهر الرمز المميز بالترتيب (يجب أن يكون true لـ lattice_format=audio )
include_span_score إذا كان true فسيتم ضرب درجة التشابه التي تم تكوينها مع درجة الحمولة النافعة (الموضحة أعلاه)
payload_function واحدة من sum أو max أو min (الافتراضي هو sum )
- sum عشرات الفترات المطابقة
- يختار max درجة الحد الأقصى من جميع الفترات المطابقة
- min يختار درجة MIN من جميع الامتدادات المطابقة
payload_length_norm_factor a تعويم يحدد مقدار طول فترة المطابقة يجب أن يطبيع درجة Span. قيمة واحدة تعني أن النتيجة مقسمة على طول المدى (لاحظ هذا بعدم عرض الفترة من حيث Lucene). قيمة 0 تعني عدم وجود تطبيع طول.

التسجيل

عند استخدام استعلام match_lattice مع payload_function=sum يتم حساب درجة المستند (في الأساس) كـ

درجة DOC

وبالمثل بالنسبة لـ payload_function=min

MIN SPAN SCORE

وللحمولة payload_function=max

أقصى درجة سبان

ابدء

تطوير

عامل ميناء

للتطوير ، يمكنك استخدام صورة Docker أدناه ، والتي تأخذ ببساطة من صورة Elasticsearch الرسمية وتثبيت هذا البرنامج المساعد. يمكنك قراءة هذا للحصول على إرشادات حول كيفية استخدام صور Elasticsearch.

docker pull messiaen/full-lattice-search:2.0.0-7.3.0

Docker-corm

docker-compose.yaml مثال:

 version : " 2 "
services :
  kibana :
    image : docker.elastic.co/kibana/kibana:7.3.0
    ports :
      - 5601:5601
    environment :
      ELASTICSEARCH_HOSTS : http://es01:9200
  es01 :
    image : messiaen/full-lattice-search:2.0.0-7.3.0
    environment :
      - node.name=es01
      - discovery.type=single-node
      - " ES_JAVA_OPTS=-Xms1024m -Xmx1024m "
    ulimits :
      memlock :
        soft : -1
        hard : -1
    volumes :
      - esdata01:/usr/share/elasticsearch/data
    ports :
      - 9200:9200

volumes :
  esdata01 :
    driver : local

ما عليك سوى نسخ YAML أعلاه إلى ملف يسمى Docker-corm.yaml ، ومن هذا الدليل تشغيل docker-compose up

مثال الاستخدام مع كيبانا

على افتراض أنك تستخدم docker-compose.yaml أعلاه ، انتقل إلى localhost:5601 في متصفحك ولصق الأمثلة التالية في وحدة التحكم في أدوات Dev Kibana.

الاستخدام مع النصوص الصوتية بأوقات

 PUT audio_lattices
{
  "settings": {
    "index": {
      "number_of_shards": 1,
      "number_of_replicas": 0
    },
    "analysis": {
      "analyzer": {
        "lattice_analyzer": {
          "type": "custom",
          "tokenizer": "whitespace",
          "filter": ["lattice_filter", "lowercase"]
        }
      },
      "filter": {
        "lattice_filter": {
          "type": "lattice",
          "lattice_format": "audio",
          "audio_position_increment_seconds": 0.1
        }
      }
    }
  },
  "mappings": {
    "dynamic": "strict",
    "properties": {
      "lattices": {
        "type": "lattice",
        "lattice_format": "audio",
        "audio_position_increment_seconds": 0.1,
        "analyzer": "lattice_analyzer"
      }
    }
  }
}

POST audio_lattices/_doc/1
{
  "lattices": """the|0|0|0.9|0.15|0.25
  quick|1|0|0.6|0.25|0.5 brick|1|1|0.2|0.25|0.5
  fox|2|0|0.5|1.0|1.3 box|2|1|0.09|1.0|1.3
  jumped|3|0|1.0|2.0|2.5"""
}

GET audio_lattices/_search
{
  "query": {
    "match_lattice": {
      "lattices": {
      
        "query": "quick box jumped",
        "slop_seconds": 2,
        "include_span_score": "true",
        "payload_function": "sum",
        "in_order": "true"
      }
    }
  }
}

عرض في وحدة التحكم

استجابة البحث

 {
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 36.987705,
    "hits" : [
      {
        "_index" : "audio_lattices",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 36.987705,
        "_source" : {
          "lattices" : """
the|0|0|0.9|0.15|0.25
  quick|1|0|0.6|0.25|0.5 brick|1|1|0.2|0.25|0.5
  fox|2|0|0.5|1.0|1.3 box|2|1|0.09|1.0|1.3
  jumped|3|0|1.0|2.0|2.5
"""
        }
      }
    ]
  }
}

الاستخدام مع النصوص النصية مع الموقف والرتبة والنتيجة فقط

 PUT text_lattices
{
  "settings": {
    "index": {
      "number_of_shards": 1,
      "number_of_replicas": 0
    },
    "analysis": {
      "analyzer": {
        "lattice_analyzer": {
          "type": "custom",
          "tokenizer": "whitespace",
          "filter": ["lattice_filter", "lowercase"]
        }
      },
      "filter": {
        "lattice_filter": {
          "type": "lattice",
          "lattice_format": "lattice"
        }
      }
    }
  },
  "mappings": {
    "dynamic": "strict",
    "properties": {
      "lattices": {
        "type": "lattice",
        "lattice_format": "lattice",
        "analyzer": "lattice_analyzer"
      }
    }
  }
}

POST text_lattices/_doc/1
{
  "lattices": """the|0|0|0.9
  quick|1|0|0.6 brick|1|1|0.2
  fox|2|0|0.5 box|2|1|0.09
  jumped|3|0|1.0"""
}

GET text_lattices/_search
{
  "query": {
    "match_lattice": {
      "lattices": {
      
        "query": "quick jumped",
        "slop": 1,
        "include_span_score": "true",
        "payload_function": "sum",
        "in_order": "true"
      }
    }
  }
}

عرض في وحدة التحكم

استجابة البحث

 {
  "took" : 0,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1,
      "relation" : "eq"
    },
    "max_score" : 9041.438,
    "hits" : [
      {
        "_index" : "text_lattices",
        "_type" : "_doc",
        "_id" : "1",
        "_score" : 9041.438,
        "_source" : {
          "lattices" : """
the|0|0|0.9
  quick|1|0|0.6 brick|1|1|0.2
  fox|2|0|0.5 box|2|1|0.09
  jumped|3|0|1.0
"""
        }
      }
    ]
  }
}

بناء من المصدر

البناء متطلبات

يصنع
Java12

بناء واختبار

ما عليك سوى تشغيل make في دليل الجذر

إذا كنت ترغب في إنشاء المكون الإضافي فقط دون إجراء اختبارات يمكنك تشغيلها

./gradlew clean assemble

في كلتا الحالتين ، سيكون المكون الإضافي المبني build/distributions/full-lattice-search-*.zip

الاختبار

سيقوم make run ببناء المكون الإضافي والوقوف على Elasticsearch (مع تثبيت المكون الإضافي) وكيبانا مع موكك Docker

تثبيت الإنتاج

يتطلب Elasticsearch 7.3.0 (دعم الإصدارات الأخرى (> = 6.0.0) قريبًا / عند الطلب)

قم بتنزيل علامة التبويب الإصدارات المناسبة
قم بتثبيت البرنامج المساعد باستخدام مستندات Elasticsearch هنا أو هنا

القيود

النقانق

قسوة التوهج

هذا البرنامج المساعد غير مصمم للعمل مع هياكل شعرية معممة ، ولكن للعمل مع نموذج مضغوط يعرف باسم شبكة الارتباك ، أو سلسلة النقانق . تمثل شبكة الارتباك شعرية معممة مع مجموعة ثابتة من المواضع (نطاقات الوقت ، ومواقع الصور ، إلخ).
يحتوي كل موقف على مجموعة من الكلمات الممكنة ، وكل كلمة لها احتمال حدوثها.

على سبيل المثال ، يمكن لمزود التعرف على الكلام الآلي إنشاء شعرية أدناه حيث قال المتحدث حقًا

"يجب أن يكون كل مقطع فيديو أقل من عشر دقائق"

شعرية على سبيل المثال

يمكن ضغط الشبكة أعلاه في شبكة الارتباك أدناه.

النقانق على سبيل المثال

لاحظ تم إدخال الرموز المميزة <epsilon> (وهذا يعني عدم وجود كلمة) للسماح بكلمة "فهم" أن يكون لها مدة أطول من غيرها.

تجدر الإشارة أيضًا إلى أن عملية ضغط الشبكة في شبكة الارتباك أمر خاطئ بشكل عام ، مما يعني أن بعض المسارات من خلال شبكة الارتباك ليست موجودة في الشبكة المصدر. على سبيل المثال ، توجد عبارة "Be Be Fource Ten" في شبكة الارتباك ، ولكن ليس في الشبكة.

لاحظ أنك مسؤول عن ضمان تنسيق هياكل الشبكة الخاصة بك بشبكات ارتباك.

التكرار الرمزي مع دلاء الدرجات

انظر docs latticeTokenFilter للحصول على تفاصيل الاستخدام.

كما هو مذكور في مستندات latticeTokenFilter ، يمكن استخدام معلمة score_buckets لفهرسة الرموز المكررة في نفس الوضع من أجل تعزيز التردد في مصطلح تلك الرموز بالنسبة إلى درجة هناك. على الرغم من أن هذا له التأثير المطلوب ، إلا أن هناك اعتبارات قليلة.

حجم الفهرس: التكرار سيزيد من حجم مؤشراتك ، نسبة إلى عدد التكرارات التي تستخدمها. هذا هو الصراع إلى حد ما مع أداء الاسترجاع. أثناء اختبار هذه التقنية لنظام ASR ، وجد أن التكرار الخطي 8x من الرموز ( score_buckets=[0.9, 72, 0.8, 64, 0.7, 56, 0.6, 48, 0.5, 40, 0.4, 32, 0.2, 16, 0.1, 8, 0.01, 2] ) أداء أفضل بكثير من التكوين.
سرعة الفهرس : يمكن أن يؤدي الكثير من الازدواجية إلى سرعات فهرس بطيئة للغاية ، خاصةً إذا تم استخدام مرشحات الرمز المميز الأثقل على مثل هذا المرشح الرمزي الصوتي ، أو بعض مرشحات رمز الجذعية أثناء اختبار الفهرسة مع تكوين الازدواجية 8x في 1 ، وإزالة مرشح الرمز المميز الصوتي من تدفق التحليل الناتج عن سرعة 5x في الفهرس.
اختراق التردد على المدى: نظرًا لأننا نخترق إحصائيات التردد المصطلح للتأثير على تسجيل الأهمية ، فإن أحد الاحتمالات هو أن الشبكات ستحتوي على الكثير من مثيلات التسجيل المنخفضة لكلمة واحدة. في هذه الحالة ، يمكن أن تكون التردد في مصطلح هذه الكلمة مرتفعًا جدًا ، وبالتالي تبدو وكأنها تطابق عالي الجودة ، في حين أنها ليست كذلك. لمساعدة هذه المستندات يجب أن تبقى صغيرة (يمكن تقسيم الشبكة إلى شرائح). بشكل عام ، يتطلب الاستخدام العام لهذا الاختراق / التبسيط اختبارًا دقيقًا لحالة الاستخدام المحددة الخاصة بك.

يوسع

معلومات إضافية

الإصدار 2.0.0 for Elasticsearch 7.3.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-05-25
الحجم 407.34KB
من Github

تطبيقات ذات صلة

كلمة البحث 800

2024-11-08
Aviator Predictor FULL

2024-11-06
azure search python samples

2024-11-05
النسخة الصينية كاملة الخدمة

2023-10-20
ديستيناتا أحمر كامل

2022-08-11
Liehuo بحث البحث باللغة الإنجليزية

2011-01-07

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل