الجيل المتمثل في الاسترجاع (RAG) هو إطار يجمع بين استرداد المعلومات مع الذكاء الاصطناعي التوليدي. يسمح للمواد باسترداد المعلومات ذات الصلة من المصادر الخارجية أو قواعد البيانات واستخدام تلك البيانات لإنشاء استجابات أكثر دقة وذات صلة بالسياق. من خلال الاستفادة من كل من الاسترجاع والتوليد ، يحسن RAG من دقة وموثوقية نماذج الذكاء الاصطناعى ، وخاصة في توفير المعلومات الحديثة أو التعامل مع الأسئلة المعقدة.
يوفر هذا المشروع مساعد محادثة قائم على الذكاء الاصطناعي يعزز الجيل المتمثل في الاسترجاع (RAG) لاستخراج المعرفة من وثائق PDF. يجمع النظام بين تضمينات النص ، والبحث في المتجهات ، و LLM لتقديم إجابات لأسئلة المستخدم. فيما يلي سير عمل مفصل خطوة بخطوة لكيفية عمل التطبيق:
pdfplumber ، مكتبة Python لاستخراج النص من PDFs.pdfplumber لاستخراج النص الخام من PDF المحمّل. يتم تحليل كل صفحة من المستند ، ويتم إعداد النص الناتج لمزيد من المعالجة.RecursiveCharacterTextSplitter . هذا يضمن أن المحتوى يمكن إدارته للتضمينات واسترجاعها ، وعادة ما يكون بحجم 500 حرف وتداخل من 50 حرفًا.SpacyEmbeddings . تمثل هذه التضمينات المعنى الدلالي للقطع ، مما يتيح البحث الفعال. 
Chroma ، حيث يتم تخزين التضمين. تتيح قاعدة بيانات المتجه استرجاعًا سريعًا وفعالًا للمعلومات ذات الصلة بناءً على استعلامات المستخدم.ConversationalRetrievalChain باستخدام LangChain ، حيث يجمع بين التضمينات المخزنة في Chroma مع المخزن المؤقت للذاكرة المحادثة لتتبع سجل الدردشة والسياق.ChatGoogleGenerativeAI (Google's Gemini LLM) لإنشاء ردود ذات صلة وذكية على أسئلة المستخدم بناءً على قطع النص المسترجعة من متجر Vector.
استرجاع المعرفة الفعال : من خلال الاستفادة من قوة RAG ، يجمع النظام بين الاسترجاع والتوليد للإجابة على أسئلة محددة بدقة بناءً على محتوى مستندات PDF المحمّلة.
قابلية التوسع والمرونة : من خلال قطع النص والتضمينات ، يمكن للتطبيق التعامل مع المستندات الكبيرة مع ضمان استرجاع المعلومات السريعة والدقيقة.
AI للمحادثة : تجعل ذاكرة تاريخ المحادثة النظام أكثر تفاعلية ، لأنه يتتبع الأسئلة والأجوبة السابقة ، والحفاظ على السياق على محادثات طويلة.
دمج أدوات الذكاء الاصطناعى الحديثة : يوضح هذا المشروع استخدام الأدوات المتقدمة مثل Chroma لتخزين المتجهات ، LangChain لإدارة المحادثة ، و Gemini LLM من Google لتوليد إجابات تشبه الإنسان.