يحتوي دفتر الملاحظات على الخطوات والرمز لإظهار دعم جيل الاسترجاع في Watsonx.ai. يقدم أوامر لاسترجاع البيانات ، وبناء قاعدة المعرفة والاستعلام ، واختبار النماذج.
استخدم نموذج LLM و Langchain و Milvus لإنشاء نظام جيل معزز للاسترجاع (RAG). سيسمح لنا ذلك بطرح أسئلة حول مستنداتنا (لم يتم تضمينها في بيانات التدريب) ، دون صياغة نموذج اللغة الكبير (LLM). عند استخدام RAG ، إذا تم إعطاؤك سؤالاً ، فأنت تقوم أولاً بخطوة استرجاع لجلب أي مستندات ذات صلة من قاعدة بيانات خاصة ، وهي قاعدة بيانات متجه تم فيها فهرسة هذه المستندات.
يعد الجيل المعزز للاسترجاع (RAG) نمطًا متعدد الاستخدامات يمكنه إلغاء قفل عدد من حالات الاستخدام التي تتطلب استدعاءًا واقعيًا للمعلومات ، مثل الاستعلام عن قاعدة المعرفة باللغة الطبيعية.
أثبتت نماذج اللغة الكبيرة (LLMS) قدرتها على فهم السياق وتقديم إجابات دقيقة لمختلف مهام NLP ، بما في ذلك التلخيص ، سؤال وجواب ، عند المطالبة به. أثناء القدرة على تقديم إجابات جيدة جدًا على أسئلة حول المعلومات التي تم تدريبهم معها ، فإنها تميل إلى الهلوسة عندما يكون الموضوع حول المعلومات التي يقومون بها "لا يعرفون" ، أي لم يتم تضمينها في بيانات التدريب الخاصة بهم. يجمع الجيل المعزز للاسترجاع بين الموارد الخارجية مع LLMs. وبالتالي فإن المكونين الرئيسيين لخرقة هما المسترد والمولد.
يمكن وصف جزء المسترد كنظام قادر على تشفير بياناتنا بحيث يمكن استردادها بسهولة الأجزاء ذات الصلة منه عند تصرفها. يتم التشفير باستخدام تضمينات النص ، أي نموذج مدرب لإنشاء تمثيل متجه للمعلومات. الخيار الأفضل لتنفيذ Retriever هو قاعدة بيانات متجه. كقاعدة بيانات متجه ، هناك خيارات متعددة ، كل من المنتجات المفتوحة أو المنتجات التجارية. أمثلة قليلة هي Chromadb و Mevius و Faiss و Pinecone و Weaviate. سيكون خيارنا في هذا الكمبيوتر الدفتري مثيلًا محليًا لـ chromadb (ثابت).
بالنسبة لجزء المولد ، فإن الخيار الواضح هو LLM. في دفتر الملاحظات هذا ، سنستخدم نموذج LLAMA V2 كميًا ، من مجموعة Kaggle Models.
سيتم تنظيم تزامن المسترد والمولد باستخدام Langchain. تتيح لنا وظيفة متخصصة من Langchain إنشاء المولد المتلقي في سطر واحد من التعليمات البرمجية.
في أبسط أشكاله ، تتطلب خرقة 3 خطوات:
690،000 كلمة تستحق النص المنظف من ويكيبيديا.
هناك ثلاثة ملفات أسئلة ، واحدة لكل عام من الطلاب: S08 و S09 و S10.
تحتوي ملفات "QuestionAnswerPairs.txt" على كل من الأسئلة والأجوبة. الأعمدة في هذا الملف هي كما يلي:
تم التخلص من الأسئلة التي تم الحكم عليها على أنها فقيرة من مجموعة البيانات هذه.
في كثير من الأحيان ، هناك خطوط متعددة مع نفس السؤال ، والتي تظهر إذا تم الإجابة على هذه الأسئلة من قبل العديد من الأفراد. https://www.kaggle.com/rtatman/questionanswer-dataset