هذا المشروع هو وكيل محادثة يعزز Langchain و Openai API ومفهوم RAG (الجيل المسبق للاسترجاع). تم تصميم الوكيل لقراءة مستندات PDF طويلة واستخراج مكونات مختلفة مثل النص والصور والجداول ، وتخزينها في قاعدة بيانات متجه لاسترجاع فعالة أثناء المحادثات مع المستخدمين.
معالجة PDF : الوكيل قادر على تحليل المعلومات واستخراجها من مستندات PDF الطويلة.
استخراج متعدد الوسائط : يستخرج النص والصور والجداول من PDF لفهم شامل.
قاعدة بيانات المتجهات : تستخدم قاعدة بيانات متجه لتخزين واسترداد المعلومات بكفاءة.
AI المحادثة : ينفذ مفهوم الخرقة لتعزيز تفاعلات المحادثة مع المستخدمين.
سوف نستخدم غير منظم لتحليل الصور والنص والجداول من المستندات (PDFs).
سوف نستخدم المسترد متعدد المستويات مع Chroma لتخزين النص الخام والصور جنبا إلى جنب مع ملخصاتها لاسترجاعها.
سوف نستخدم GPT-4V لكل من تلخيص الصور (لاسترجاع) بالإضافة إلى توليف الإجابة النهائية من مراجعة Join of Images و Exts (أو الجداول).
Langchain <- قم بزيارة هنا لفهم تثبيت Langchain
Openai API <- تعليمات لإعداد واستخدام API Openai.
chroma db <- تعليمات لإعداد قاعدة بيانات المتجه واستخدامها.
توفير الطريق إلى المصدر PDF
قم بتغيير regred_text وفقًا لاحتياجاتك.
استبدل أسئلتك في خط الاستعلام.
سيستخدم الوكيل المعلومات المخزنة للاستجابات الذكية.
استرجاع
يتم إجراء الاسترجاع بناءً على التشابه مع ملخصات الصور وكذلك قطع النص. هذا يتطلب بعض الدراسة بعناية لأن استرجاع الصورة يمكن أن يفشل إذا كانت هناك أجزاء نصية متنافسة. للتخفيف من ذلك ، أقوم بإنتاج أجزاء نصية أكبر (الرمز المميز 4K) وتلخيصها لاسترجاعها.
حجم الصورة
يبدو أن جودة تخليق الإجابة حساسة لحجم الصورة ، كما هو متوقع. سأفعل Evals قريبًا لاختبار هذا بعناية أكبر.
هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا.