مصدر الصورة: MK Pavan Kumar
مصدر الصورة: Pinecone
يستفيد هذا المشروع من نماذج المصدر المفتوح لبناء chatbot لـ NEPSE ، Nepal Stock Exchange Ltd ، باستخدام تقنية التوليد المعززة للاسترجاع. يتم استخدام كتيب Nepse PDF لإجابات الأسئلة. يستخدم المشروع نماذج المصادر المفتوحة التالية:
Intel/Neural-Chat-7B-V3-1: يتم استخدام LLM مفتوح المصدر ، الذي تم تطويره في الأصل بواسطة Intel وكمية من قبل TheBloke. على وجه التحديد ، يتم استخدام النسخة الكمية GPTQ 8 بت بسبب ذاكرة محدودة.
All-MPNET-Base-V2: يتم استخدام محول الجملة مفتوح المصدر من وجه المعانقة المسمى All-MPNET-Base-V2 لتوليد تضمينات عالية الجودة.
AAI/BGE-RERANKER-LARGE: يتم استخدام نموذج RERANKING مفتوح المصدر من الوجه المعانقة المسمى BGE-Reranker-Large لإعادة تصنيف المستندات التي تم استردادها من متجر Vector.
Google Translate API: يتم استخدام واجهة برمجة تطبيقات Google المجانية لتنفيذ الترجمة بين محتوى Nepali و English.
يتم تنظيف البيانات النصية من كتيب NEPSE ، مقسمة إلى أجزاء ، ويتم تطوير التضمينات باستخدام محولات الجملة ، والتي تتم إضافتها إلى قاعدة بيانات Vector FAISS. عندما يقوم المستخدم بإدخال سؤال ، يتم تطوير التضمينات من الإدخال ، ويتم استخدام تضمينات السؤال لإجراء بحث متجه لاسترداد مستندات K Top. يتم تمرير المستندات التي تم استردادها من أفضل K إلى نموذج Reranking لتعزيز جودة وملاءمة الاستردادات. أخيرًا ، يتم تمرير المستندات العليا K-Reranked كسياق إلى LLM مع هندسة موجهة مناسبة لتقديم إجابات للمستخدمين.
تم تطوير واجهة أمامية بسيطة باستخدام HTML و CSS و JavaScript ، والخلفية باستخدام Flask. يتم بث الردود/الرموز المتوقعة من LLM إلى الواجهة الأمامية في الوقت الفعلي لتقليل زمن انتقال المستخدم وتعزيز تجربة المستخدم. يتم نشر التطبيق على مثيل G4DN.XLARGE AWS EC2 للاستدلال في الوقت الفعلي.

مع 16 غيغابايت من VRAM ، ستناسب جميع النماذج الثلاثة بسهولة دون أي مشاكل. تعرض لقطات الشاشة والمقاطع أدناه القدرة على الإجابة في الوقت الفعلي لـ Nepse chatbot المنشور على AWS.



تدفق استجابة LLM (مثل ChatGPT)

انقر على الرابط أدناه لمشاهدة/تنزيل الفيديو الكامل.
مشاهدة الفيديو