رابط المقال
يوضح مشروع Python هذا البحث الدلالي باستخدام MongoDB واثنين من أطر LLM المختلفين: Langchain و Llamaindex . الهدف من ذلك هو تحميل المستندات من MongoDB ، وإنشاء تضمينات للبيانات النصية ، وإجراء عمليات البحث الدلالية باستخدام كل من أطر Langchain و Llamaindex .
لتشغيل هذا المشروع ، تحتاج إلى تعيين متغيرات البيئة التالية في ملف .env :
OPENAI_API_KEY = YOUR_OPENAI_API_KEY
MONGODB_URI = YOUR_MONGODB_CONNECTION_URI
MONGODB_COLL = YOUR_MONGODB_COLLECTION
MONGODB_VECTOR_INDEX = YOUR_MONGODB_VECTOR_INDEX
MONGODB_VECTOR_COLL_LANGCHAIN = YOUR_MONGODB_VECTOR_COLLECTION_LANGCHAIN
MONGODB_VECTOR_COLL_LLAMAINDEX = YOUR_MONGODB_VECTOR_COLLECTION_LLAMAINDEXتأكد من استبدال قيم العنصر النائب بمفاتيح API الفعلية وتفاصيل الاتصال.
تثبيت التبعيات:
pip install -r requirements.txt
يقوم المشروع بتحميل المستندات من مجموعة MongoDB المحددة ( MONGODB_COLL ). تأكد من أن مجموعة MongoDB الخاصة بك تحتوي على البيانات النصية التي تريد إجراء بحث دلالي.
يقوم التطبيق بإنشاء تضمينات لبيانات النص المحملة باستخدام أطر Langchain و Llamaindex. يتم تخزين التضمينات في مجموعات mongodb منفصلة ( MONGODB_VECTOR_COLL_LANGCHAIN و MONGODB_VECTOR_COLL_LLAMAINDEX ).
يتم إجراء البحث الدلالي باستخدام كل من أطر Langchain و Llamaindex. تتضمن العملية الاستعلام عن مجموعة التضمين واسترداد المستندات ذات الصلة بناءً على التشابه الدلالي للمطالبة.
OPENAI_API_KEY مطلوب لتضمين توليد باستخدام نماذج اللغة الخارجية (على سبيل المثال ، Openai's GPT). تأكد من تكوين تفاصيل اتصال MongoDB ومجموعاتها بشكل مناسب. تحقق من الوثائق الرسمية لـ Langchain و Llamaindex للحصول على أي تفاصيل تكوين إضافية أو استخدام.