مرحبًا بكم في خط أنابيب الإجابة على الأسئلة مع Vectordb ونماذج اللغة الكبيرة (LLM). يهدف هذا المشروع إلى إنشاء خط أنابيب فعال وقابل للتطوير لمهام الإجابة على الأسئلة باستخدام chromadb والتي تعد قاعدة بيانات متجه مفتوح المصدر ، بالاقتران مع LLAMA2 والتي تعد أيضًا نموذج لغة كبير مفتوح المصدر (LLM).
إدخال المستخدم: يقدم المستخدمون مصادر بيانات نصية بتنسيقات مثل .pdf. هذه الوثائق بمثابة أساس لتوليد الاستجابات.
تحميل المستندات: يتم استخدام محمل مستند Langchain لتحميل المستندات المقدمة والمعالجة المسبقة بكفاءة ، مما يضمن التوافق مع المهام المصب.
صقل المستندات: تنقسم المستندات المحملة إلى قطع أصغر يمكن التحكم فيها لتعزيز كفاءة عملية الإهمال.
تخزين التضمين في Vectordb (Chromadb): يتم إنشاء تضمينات القطع وتخزينها في Chromadb ، تقنية Vectordb الأساسية ، مما يتيح استرجاع المعلومات السريعة والدقيقة.
معالجة الاستعلام: يتم تحويل استعلامات المستخدم إلى تضمينات ، مما يسمح بمقارنة سلسة مع تضمينات المستند المخزنة.
البحث عن قاعدة بيانات Vector: يتم الاستعلام عن Vectordb مع التضمينات التي تم إنشاؤها لاسترداد قطع المعلومات ذات الصلة ، مما يؤدي إلى تحسين عملية إجابة الأسئلة.
LLM Processing (LLAMA2): يتم تمرير التضمينات المستردة إلى LLAMA2 ، LLM ، والتي تولد الإجابات الدقيقة للسياق ودقيقة لاستفسارات المستخدم.
لبدء خط أنابيب الإجابة على الأسئلة ، يحتاج المستخدمون إلى توفير مصادر البيانات النصية الخاصة بهم في التنسيقات المدعومة (التنسيق المدعوم حاليًا: PDF ، CSV ، HTML ، XLSX ، DOCX ، XML ، JSON ). اتبع القسم التالي لضمان التبعية المناسبة وتكوين التبعيات.
اتبع هذه الخطوات لتشغيل خط أنابيب إجادة الأسئلة بنجاح:
تثبيت التبعيات: تأكد من تثبيت جميع التبعيات المطلوبة. قم بتشغيل الأوامر التالية في خلية دفتر ملاحظات:
!pip install langchain
!pip install PyPDF
!pip install sentence_transformers
!pip install chromadb
!pip install accelerate
!pip install bitsandbytes
!pip install jq
!pip install unstructured
تخصيص المعلمات:
افتح دفتر الملاحظات وحدد المعلمات التالية:
JQ_SCHEMA: تخصيص هذه المعلمة وفقًا لمخطط البيانات الخاص بك. حدد بنية بياناتك النصية للتحميل والمعالجة المناسبين.
input_path: حدد المسار إلى مصدر البيانات النصية ، مثل ملف .pdf. تأكد من ضبط المسار بشكل صحيح على المستند الخاص بك.
الرمز المميز لوجه Face Face: تأكد من الحصول على رمز تفويض من Hugging Face لتنزيل نموذج LLAMA2. هذا الرمز المميز أمر بالغ الأهمية للوصول إلى النموذج. اضبط الرمز المميز في القسم المناسب من دفتر الملاحظات.
قم بتشغيل دفتر الملاحظات: قم بتشغيل خلية دفتر Jupyter بواسطة الخلية. تأكد من أن كل خلية تنفذ بنجاح دون أخطاء.
نرحب بالمساهمات والتعليقات من المجتمع. سواء أكنت تحدد المشكلات ، أو لديك اقتراحات للتحسينات ، أو ترغب في توسيع الوظيفة ، فإن مدخلاتك ذات قيمة بالنسبة لنا. لا تتردد في المساهمة في المشروع. شكرا لك لاستكشاف مشروعنا.