สารบัญ
- ชื่อที่เก็บ
- ชื่อของโครงการ
- คำอธิบายสั้น ๆ ของโครงการ
- วัตถุประสงค์ของโครงการ
- ชื่อของชุดข้อมูล
- คำอธิบายของชุดข้อมูล
- เป้าหมายของโครงการโดยใช้ชุดข้อมูลนี้
- ขนาดของชุดข้อมูล
- อัลกอริทึมที่ใช้เป็นส่วนหนึ่งของการสอบสวนของเรา
- ข้อกำหนดโครงการ
- การใช้โครงการ
- สถาปัตยกรรม chatbot ใดที่ผู้ใช้ควรใช้
- ผู้เขียน
ชื่อที่เก็บ
smartchat-conversational-chatbot
ชื่อของโครงการ
SmartChat: ตัวแทนการสนทนาที่รับรู้บริบท
คำอธิบายสั้น ๆ ของโครงการ
พัฒนา chatbot ที่สามารถปรับให้เข้ากับบริบทและการเปลี่ยนแปลงหัวข้อในการสนทนาได้อย่างมีประสิทธิภาพใช้ประโยชน์จากชุดข้อมูลการตอบคำถามของ Stanford เพื่อให้คำตอบที่มีข้อมูลและเกี่ยวข้องและเพิ่มความพึงพอใจและการมีส่วนร่วมของผู้ใช้
วัตถุประสงค์ของโครงการ
สร้างเว็บหรืออินเทอร์เฟซแอพที่ใช้งานง่ายซึ่งช่วยให้ผู้ใช้สามารถสนทนาได้อย่างเป็นธรรมชาติและสอดคล้องกันกับ Chatbot ด้วยความพึงพอใจสูง
ชื่อของชุดข้อมูล
ชุดข้อมูลที่ใช้ในโครงการนี้คือ ชุดข้อมูลตอบคำถามของ Stanford
แหล่งข้อมูล: Kaggle
ประเภทของชุดข้อมูล: ข้อความ
คำอธิบายของชุดข้อมูล
ชุดข้อมูลการตอบคำถามของคำถาม Stanford (Squad) เป็นชุดข้อมูลความเข้าใจในการอ่านซึ่งประกอบด้วยคำถามที่ถูกวางโดยฝูงชนในชุดบทความวิกิพีเดีย คำตอบสำหรับทุกคำถามคือส่วนของข้อความหรือช่วงจากข้อความการอ่านที่เกี่ยวข้อง มีคำตอบคำถามกว่า 100,000 คู่ในบทความ 500+ บทความ ข้อมูลเพิ่มเติมสามารถดูได้ที่: https://rajpurkar.github.io/squad-explorer/
เป้าหมายของโครงการโดยใช้ชุดข้อมูลนี้
- เป้าหมายของโครงการคือการพัฒนา chatbot ที่สามารถดำเนินการสนทนาหลายครั้งปรับให้เข้ากับบริบทและจัดการหัวข้อที่หลากหลาย
ขนาดของชุดข้อมูล:
- ชุดข้อมูลมี 2 ไฟล์ JSON หนึ่งสำหรับการฝึกอบรมและอีกอันสำหรับการทดสอบ
- dev-v1.1.json-4.9 MB
- Train-v1.1.json-30.3 MB
อัลกอริทึมที่ใช้เป็นส่วนหนึ่งของการสอบสวนของเรา
- มีการใช้สถาปัตยกรรมที่แตกต่างกัน 2 รายการ:
- สถาปัตยกรรม GPT2-Medium โดยใช้ LORA และ PEFT
- Bert (Bert-Base-uncased)
ข้อกำหนดโครงการ
- Python3
- ชุดข้อมูล
- คบเพลิง
- คนอื่น ๆ
- หม้อแปลงไฟฟ้า
- ประเมิน
- เครื่องรักษาความปลอดภัย
- นม
- แพนด้า
- matplotlib
- Scikit-learn
- สัตว์ทะเล
- nltk
- คะแนน
- รูจ
- Gradeio
- TQDM
การใช้โครงการ
- GOTO Squad DataSet การประมวลผลล่วงหน้าและตรวจสอบให้แน่ใจว่าคุณมีไฟล์
train-v1.1.json และ dev-v1.1.json- ในกรณีที่คุณไม่มีพวกเขาคุณสามารถดาวน์โหลดได้ที่นี่และที่นี่
- Goto Squad DataSet การประมวลผลไฟล์ล่วงหน้าและเรียกใช้เซลล์ทั้งหมด
- ในการดำเนินการและดูผลลัพธ์ของวิธี Bert (Bert-Base-uncased) โปรดผ่านคำแนะนำที่ให้ไว้ในไฟล์ squad_chatbot_using_bert-base-uncased_readme.md
- ในการดำเนินการและดูผลลัพธ์ของวิธี GPT (GPT2-Medium โดยใช้ LORA และ PEFT) โปรดทำตามคำแนะนำที่ให้ไว้ในไฟล์ Squad_Chatbot_using_GPT2-Medium_readme.md
สถาปัตยกรรม chatbot ใดที่ผู้ใช้ควรใช้
- ที่จริงแล้วทั้งสอง chatbots ทำงานได้ดี
- squad_using_gpt2-medium สร้างคำตอบ แต่ส่วนใหญ่เวลาที่มีปัญหา
- สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการสังเกตและรายละเอียดทางเทคนิคอ้างอิงไฟล์การฝึกอบรมและการตรวจสอบ
- squad_using_bert-base-uncased ทำงานได้ดีตามที่คาดไว้
- ข้อสรุปสุดท้ายคือ: ผู้ใช้สามารถใช้ chatbot ใด ๆ แต่สำหรับคำตอบที่สมบูรณ์แบบให้ใช้ประโยชน์จาก squad_using_bert-base-uncased
ผู้เขียน