محتويات
- اسم المستودع
- عنوان المشروع
- وصف قصير للمشروع
- أهداف المشروع
- اسم مجموعة البيانات
- وصف مجموعة البيانات
- هدف المشروع باستخدام مجموعة البيانات هذه
- حجم مجموعة البيانات
- الخوارزميات التي يتم استخدامها كجزء من تحقيقنا
- متطلبات المشروع
- استخدام المشروع
- أي بنية chatbot يجب أن يستخدمها المستخدمون
- المؤلفون
اسم المستودع
SmartChat-Conversational-Chatbot
عنوان المشروع
SmartChat: وكيل محادثة مدركة للسياق
وصف قصير للمشروع
قم بتطوير chatbot التي يمكن أن تتكيف بشكل فعال مع السياق والموضوعات في محادثة ، والاستفادة من مجموعة بيانات الإجابة على أسئلة Stanford لتوفير ردود مستنيرة وذات صلة ، وبالتالي زيادة رضا المستخدم والمشاركة.
أهداف المشروع
قم بإنشاء واجهة ويب أو تطبيق سهلة الاستخدام تمكن المستخدمين من إجراء محادثات طبيعية ومتماسكة مع chatbot ، مع تصنيف الرضا العالي.
اسم مجموعة البيانات
مجموعة البيانات المستخدمة في هذا المشروع هي مجموعة بيانات Stanford للأسئلة .
مصدر البيانات: kaggle
نوع مجموعة البيانات: نص
وصف مجموعة البيانات
مجموعة بيانات الإجابة على أسئلة Stanford (Squad) هي مجموعة بيانات لفهم القراءة التي تتكون من أسئلة طرحها عمال الحشد على مجموعة من مقالات ويكيبيديا. الإجابة على كل سؤال هي جزء من النص ، أو الامتداد ، من مقطع القراءة المقابل. هناك 100،000+ زوجة إجابات أسئلة على 500+ مقالة. يمكن العثور على مزيد من المعلومات على: https://rajpurkar.github.io/squad-explorer/
هدف المشروع باستخدام مجموعة البيانات هذه
- الهدف من المشروع هو تطوير chatbot يمكنه إجراء محادثات متعددة المنعطفات ، والتكيف مع السياق ، والتعامل مع مجموعة متنوعة من الموضوعات.
حجم مجموعة البيانات:
- تحتوي مجموعة البيانات على ملفان JSON. واحد للتدريب والآخر هو للاختبار
- DEV-V1.1.JSON-4.9 MB
- Train-V1.1.JSON-30.3 MB
الخوارزميات التي يتم استخدامها كجزء من تحقيقنا
- يتم استخدام 2 بنيات مختلفة:
- بنية GPT2-Medium باستخدام Lora و PEFT
- بيرت (Bert-base-uncared)
متطلبات المشروع
- بيثون 3
- مجموعات البيانات
- الشعلة
- PEFT
- محولات
- يقيم
- Safetensors
- numpy
- الباندا
- Matplotlib
- Scikit-Learn
- بحر
- NLTK
- درج الحدود
- روج
- غراد
- TQDM
استخدام المشروع
- Goto Squad DataSet Prevrocessing والتأكد من أن لديك ملفات
train-v1.1.json و dev-v1.1.json .- في حالة عدم وجودها ، يمكنك تنزيلها هنا وهنا
- GOTO SQUAD DATASETING FILE وتشغيل جميع الخلايا.
- لتنفيذ وعرض نتائج نهج Bert (bert-base-uncared) ، يرجى مرور الإرشادات المقدمة في ملف Squad_Chatbot_USING_BERT-BASE-BASE-CONCAND_README.MD.
- لتنفيذ وعرض نتائج نهج GPT (GPT2-Medium باستخدام LORA و PEFT) ، يرجى مرور الإرشادات المقدمة في ملف SQUAD_CHATBOT_USING_GPT2-MEDIUM_README.MD.
أي بنية chatbot يجب أن يستخدمها المستخدمون
- في الواقع ، كل من chatbots تعمل بشكل جيد.
- يقوم Squad_using_gpt2-medium بإنشاء الإجابات ولكن في معظم الأوقات لديها مشاكل.
- لمزيد من المعلومات حول الملاحظات والتفاصيل الفنية ، راجع ملفات التدريب والتحقق من الصحة.
- Squad_using_bert-base-uncared يعمل بشكل جيد كما هو متوقع.
- الاستنتاج النهائي هو: يمكن للمستخدمين استخدام أي chatbot. ولكن لتوليد الإجابات المثالية ، استخدم Squad_using_bert-base.
المؤلفون