BYOSC Build Your Own Scalable Chatbots

BYOSC Build Your Own Scalable Chatbots

كود الذكاء الاصطناعي

1.0.0

تنزيل

Byosc-Build-your-chatbots

مقدمة

عند التحضير لامتحانات الجامعة ، ثبت أن وجود شريك ضروري لاكتشاف فجوات المعرفة وتوضيح شكوك محددة حول الموضوع الذي عولج خلال الفصول الدراسية. في حين أن chatbots تعتمد على LLMs مثل ChatGPT و Phind و Clod يقدمون المساعدة للطلاب بالفعل ، لا يمكنهم تقديم مساعدة محاضرة/مواد خاصة في دورات الجامعة للطلاب. نقترح إنشاء نظام لضبط chatbots على مواد محددة من دورات محددة. بفضل هذا ، سنقوم بإنشاء رفاق الدراسة لدورات طالب جامعي نموذجي ، قادرين على الإجابة على الشكوك ، وإنشاء أسئلة وأكثر!

من الممكن اختبار chatbot في هذا الرابط.

محادثة

النطاق الضمني للمشروع (والدورة بأكملها) هو بناء بنية تحتية قابلة للتطوير يمكنها استضافة MLOPs لدينا. لهذا السبب ، يتم تقسيم خط أنابيب ML المترابط التقليدي إلى ثلاث عمليات مختلفة: خط أنابيب الميزات ، خط أنابيب التدريب ، خط أنابيب الاستدلال .

بنيان

ميزة خط الأنابيب

خط أنابيب الميزة مسؤول عن:

تنزيل ملف جديد متاح من مجلد مشترك عام
توليد نصوص الملفات
تحميل نسخة جديدة إلى Hopsworks
باستخدام واجهات برمجة تطبيقات GPT 3.5 لإنشاء مجموعة تعليمية صالحة لضبط نموذج الأساس
تحميل هذا التعليمات التي تم تعيينها على Hopsworks

تشغيل خط أنابيب الميزة

هناك العديد من الخيارات لتشغيل خط أنابيب الميزة:

قم بتنفيذ FeaturePipeline/Reading.ipynb
قم بتنفيذ FeaturePipeline/FeaturePipeline.py باستخدام python3 FeaturePipeline/FeaturePipeline.py

يتم تعديل نسخة من هذا الأخير قليلاً في ملف FeaturePipeline/FeaturePipeline_modal.py لجعلها قابلة للتشغيل على خدمة الاستضافة الوسائط باستخدام modal [run|deploy] FeaturePipeline/FeaturePipeline.py

خط أنابيب التدريب

خط أنابيب التدريب مسؤول عن:

استرجاع مجموعة التعليمات من Hopsworks
إعداد مثيل المدرب باستخدام تقنيات PEFT و LORA
إدارة التدريب
تحميل النتيجة إلى Huggingface

تشغيل خط أنابيب التدريب

لتنفيذ خط أنابيب التدريب ، قم بتشغيل دفتر TrainingPipeline/FineTuning.ipynb

خط أنابيب الاستدلال

خط أنابيب الاستدلال مسؤول عن:

قم بتشغيل واجهة chatbot باستخدام STERMELIT + LANGCHAIN
تنزيل نصوص المواد من Hopsworks
حوسبة التضمينات للمادة الأصلية باستخدام جملة بيرت
حوسبة التضمينات لسؤال المستخدم باستخدام الجملة بيرت
استرجاع المواد الأكثر تناسقًا لسؤال معين
زيادة استجابة chatbot باستخدام خرقة

تشغيل خط أنابيب الاستدلال

لتنفيذ خط أنابيب الاستدلال ، قم streamlit run chatbot_app.py

الاستنتاجات

على الرغم من أن عملية الضبط بشكل تجريبي ليست كافية لجعل النموذج التأسيسي أفضل باستمرار من النموذج غير المضبط ، إلا أن chatbot التي تدعم RAG لا يمكنها فقط الإجابة على أسئلة المستخدم بشكل صحيح متابعة المادة الأصلية ، ولكنها قادرة أيضًا على إعطاء (في الغالب) المراجع الصحيحة للمكان الذي يتم فيه أخذ الإجابة من الميزة الأساسية لدراسة الطالب للامتحان الجامعي!

العمل المستقبلي

لا يعمل الضبط الدقيق وكذلك المقصود بسبب نقص المواد المستخدمة والموارد الحسابية. كعمل مستقبلي ، نريد تحسين عملية استخراج المعرفة واستخدام المزيد من الطاقة الحسابية لمعالجة المشكلات الموضحة في التقرير.

يوسع

معلومات إضافية