يوضح هذا المستودع Langchain و LLAMA2-Chat والهندسة الفريدة الصفرية والقطعة القليلة لتمكين توليد البيانات الاصطناعية لاسترجاع المعلومات (IR) وتقييم التوليد المعزز (RAG) للاسترجاع.
مقدمة • أبرز ما • مثال على دفاتر الملاحظات • الخلفية • المقاييس • الفوائد • القوالب السريعة • المشكلات • تودوس
حولت نماذج اللغة الكبيرة (LLMS) استرجاع المعلومات (IR) والبحث من خلال فهم الاستعلامات المعقدة. يعرض هذا المستودع المفاهيم والحزم التي يمكن استخدامها لإنشاء مجموعات بيانات اصطناعية متطورة لتقييم التوليد المعزز (RAG) للاسترجاع.
البيانات الاصطناعية التي تم إنشاؤها هي استعلام وإجابة لسياق معين. يرد أدناه مثال على الإجابة عن السياق المولدة صناعياً أدناه:
Provided Context (usually split from documents / text sources):
Pure TalkUSA is an American mobile virtual network operator headquartered in Covington, Georgia, United States.
It is most notable for an industry-first offering of rollover data in their data add-on packages, which has since been discontinued.
Pure TalkUSA is a subsidiary of Telrite Corporation. Bring Your Own Phone!
Synthetically Generated Query:
What was the outstanding service offered by Pure TalkUSA?
Synthetically Generated Answer:
The outstanding service from Pure TalkUSA was its industry-first offering of rollover data.
عند إنشاء نظام IR أو نظام خرقة ، تعد مجموعة بيانات السياق والاستعلامات والإجابات أمرًا حيويًا لتقييم أداء النظام. توفر مجموعات البيانات المذكورة البشرية حقائق أرضية ممتازة ولكن يمكن أن تكون باهظة الثمن وصعبة للغاية ؛ لذلك ، فإن مجموعات البيانات الاصطناعية التي تم إنشاؤها باستخدام LLMS هي حل جذاب وملحق.
من خلال استخدام الهندسة المهمة LLM ، يمكن إنشاء مجموعة متنوعة من الاستعلامات والأجوبة الاصطناعية لتشكيل مجموعة بيانات التحقق القوية. يعرض هذا المستودع عملية لإنشاء بيانات اصطناعية مع التأكيد على صفر وضمن الطلقات لإنشاء مجموعات بيانات اصطناعية قابلة للتخصيص للغاية. يوضح الشكل 1 عملية توليد مجموعة البيانات الاصطناعية الموضحة في هذا المستودع.

الشكل 1: توليد البيانات الاصطناعية لتقييم الأشعة تحت الحمراء وتقييم الخرقة
ملاحظة : ارجع إلى أقسام الخلفية والمقاييس للغوص الأعمق على الأشعة تحت الحمراء والخرقة وكيفية تقييم هذه الأنظمة.
عدد قليل من النقاط البارزة في المستودع هي:
1.) langchain مع مطالبات مخصصة وموزعات الإخراج لإخراج البيانات المهيكلة : انظر gen-question-answer-query.ipynb للحصول على مثال على توليد بيانات السياق الاصطناعي-الإجابة. الجوانب الرئيسية لهذا الكمبيوتر الدفتري هي:
1.) Langchain Custom Llama2-Chat Prompting : انظر QA-gen-query-langchain.ipynb للحصول على مثال على كيفية بناء قوالب موجه مخصصة لانغشين لتوليد مساعتي السياق. عدد قليل من ميزات Langchain الموضحة في هذا الكمبيوتر الدفتري هي:
1.) هندسة مطالبة الصفر والقطعة القليلة : راجع QA-gen-query.ipynb للحصول على مثال على توليد بيانات مسابقة السياق الاصطناعي لمجموعات البيانات المخصصة. الميزات الرئيسية المقدمة هنا هي:
zero- and few-shot annotations على مجموعة بيانات الاستعراض Squarv2.2.) التنقيب عن السياق : انظر الوسيطة gen-query.ipynb للحصول على أمثلة لبيانات مسافة السياق الاصطناعية لمهام استرجاع الوسيطة. في سياق استرجاع المعلومات ، تم تصميم هذه المهام لاسترداد الحجج ذات الصلة من مصادر مختلفة مثل المستندات. في استرجاع الحجة ، يتمثل الهدف في تزويد المستخدمين بمعلومات مقنعة وذات مصداقية لدعم حججهم أو اتخاذ قرارات مستنيرة.
يمكن العثور بسهولة على أمثلة أخرى لنماذج التوليد المحددة للاستعلام (على سبيل المثال ، BeIR/query-gen-msmarco-t5-base-v1 ) عبر الإنترنت (انظر إنشاء أسئلة بير).
تتمثل الوظيفة الأساسية لنظام الأشعة تحت الحمراء في الاسترجاع ، والتي تهدف إلى تحديد الأهمية بين استعلام المستخدمين والمحتوى المراد استرداده. يتطلب تنفيذ نظام الأشعة تحت الحمراء أو نظام الخرقة المستندات الخاصة بالمستخدم. ومع ذلك ، تفتقر إلى مجموعات البيانات المشروحة لمجموعات البيانات المخصصة يعوق تقييم النظام. يوفر الشكل 2 نظرة عامة على عملية خرقة نموذجية لنظام إجابة الأسئلة.

الشكل 2: نظرة عامة على عملية الخرقة [المصدر].
تعتبر مجموعات بيانات السياق الاصطناعي هذا الإجابة أمرًا بالغ الأهمية للتقييم: 1) قدرة أنظمة الأشعة تحت الحمراء على تحديد السياق المحسّن كما هو موضح في الشكل 2 - الخطوة رقم 3 ، و 2) استجابة RAG التي تم إنشاؤها كما هو موضح في الشكل 2 - الخطوة رقم 5. من خلال السماح بالتقييم غير المتصلة بالإنترنت ، فإنه يتيح تحليلًا شاملاً لتوازن النظام بين السرعة والدقة ، وإبلاغ المراجعات اللازمة واختيار تصميمات نظام البطل.
أصبح تصميم أنظمة الأشعة تحت الحمراء وأنظمة الخرقة أكثر تعقيدًا كما هو مشار إليه في الشكل 3.

الشكل 3: يمكن استخدام LLMs في Requery Rewriter و Retriever و Reranker والقارئ [المصدر]
كما هو موضح ، يمكن أن تتراوح العديد من الاعتبارات في تصميم IR / RAG في التعقيد من الطرق التقليدية (على سبيل المثال ، الأساليب المتفرقة القائمة على المصطلحات) إلى الطرق القائمة على العصبية (على سبيل المثال ، التضمينات و LLMS). يعد تقييم هذه الأنظمة أمرًا بالغ الأهمية لاتخاذ قرارات تصميم مستنير. من البحث إلى التوصيات ، تكون مقاييس التقييم أمرًا بالغ الأهمية لفهم ما يفعله ولا يعمل في الاسترجاع.
أنظمة الإجابة على الأسئلة (QA) (على سبيل المثال ، نظام RAG) لها مكونان:
عند تقييم نظام ضمان الجودة ، يجب تقييم المكونين بشكل منفصل وللحصول على درجة إجمالية للنظام.
عندما يتم طرح سؤال على تطبيق خرقة ، يمكن اعتبار الكائنات التالية [المصدر]:
إن اختيار المقاييس ليس محورًا أساسيًا لهذا المستودع لأن المقاييس تعتمد على التطبيق ؛ ومع ذلك يتم توفير المقالات المرجعية والمعلومات للراحة.
يوضح الشكل 4 مقاييس التقييم الشائعة لـ IR ويمكن استخدام Dataset من الشكل 1 Offline Metrics الموضحة في الشكل 4.

الشكل 4: مقاييس تقييم الترتيب [المصدر]
يتم قياس Offline metrics في بيئة معزولة قبل نشر نظام IR جديد. هذه تبحث في ما إذا كان يتم إرجاع مجموعة معينة من النتائج ذات الصلة عند استرداد العناصر باستخدام النظام [المصدر].
ستعرض مراجعة موجزة لمقاييس المولد بعض مستويات التعقيد المتري. عند تقييم المولد ، انظر إلى ما إذا كان ، أو إلى أي مدى ، تتطابق مقاطع الإجابة المحددة مع الإجابة أو الإجابات الصحيحة.
الواردة أدناه هي مقاييس مولد مدرجة على الأقل إلى الأكثر تعقيدًا.
يرجى الرجوع إلى المقالة العميقة: مقاييس لتقييم نظام الإجابة على أسئلة وتقييم خطوط أنابيب خرقة مع Ragas + Langsmith التي توضح هذه المقاييس.
بعض الفوائد الرئيسية لتوليد البيانات الاصطناعية مع هندسة المطالبة LLM هي:
Customized IR Task Query Generation : تقدم LLMs مرونة كبيرة في أنواع الاستعلامات التي يمكن إنشاؤها. هذا مفيد لأن مهام الأشعة تحت الحمراء تختلف في تطبيقها. على سبيل المثال ، يعد المعايير-IR (BEIR) معيارًا غير متجانس يحتوي على مهام IR متنوعة مثل الإجابة على الأسئلة أو الحجة أو استرجاع الحجة المضادة ، والتحقق من الحقيقة ، وما إلى ذلك بسبب التنوع في مهام IR ، هذا هو المكان الذي يمكن أن يكون فيه فوائد المطالبة بـ LLM التميز لأن المطالبة يمكن أن يتم توليدها لتوليد بيانات سينثيتيك إلى IR. يوضح الشكل 5 نظرة عامة على مهام ومجموعات البيانات المتنوعة في بير. ارجع إلى المتصدرين في بير لترى أداء نماذج الاسترجاع المستندة إلى NLP. 
الشكل 5: مجموعات بيانات بير بيرشارك ومهام الأشعة تحت الحمراء مأخوذة من [المصدر]
Zero or Few-Shot Annotations : في تقنية يشار إليها على أنها صفر أو طلقة قليلة ، يمكن للمطورين توفير استفسارات خاصة بالمجال إلى LLMs ، مما يعزز توليد الاستعلام بشكل كبير. غالبًا ما يتطلب هذا النهج فقط حفنة من العينات المشروحة.Longer Context Length : توفر نماذج LLM المستندة إلى GPT ، مثل LLAMA2 ، أطوال سياق ممتدة ، ما يصل إلى 4،096 رمزًا مقارنة برموز Bert 512. هذا السياق الأطول يعزز تحليل المستندات والتحكم في توليد الاستعلام.سيتم استخدام LLAMA2 في هذا المستودع لتوليد استعلامات تركيبية لأنه يمكن تشغيله محليًا على وحدات معالجة الرسومات المستهلك. يظهر أدناه القالب السريع لدردشة LLAMA2 التي تم ضبطها بشكل جيد للحوار وتطبيقات التعليمات.
<s>[INST] <<SYS>>
{your_system_message}
<</SYS>>
{user_message_1} [/INST]
<<SYS>> هو واحد من المزايا التي لا تزال غير معروفة لنماذج الوصول المفتوحة هي أن لديك التحكم الكامل في موجه النظام في تطبيقات الدردشة. هذا ضروري لتحديد سلوك مساعد الدردشة الخاص بك - وحتى يشربها مع بعض الشخصية - ، ولكن لا يمكن الوصول إليه في النماذج التي يتم تقديمها خلف واجهات برمجة التطبيقات [المصدر].لاحظ أن نماذج LLAMA2 الأساسية ليس لها بنية موجبة لأنها نماذج ناشئة غير بنية خام [المصدر].
موارد ومراجع إضافية للمساعدة في تقديم تقنيات وأساسيات:
Prompt Engineering Consistency Filtering .هذا المستودع سيبذل قصارى جهده للحفاظ عليه. إذا واجهت أي مشكلة أو ترغب في إجراء تحسينات ، فيرجى إثارة مشكلة أو تقديم طلب سحب. ؟