disha - chatbot iiit nagpur
ยินดีต้อนรับสู่ที่เก็บ Disha Chatbot GitHub! โครงการนี้เป็นโซลูชันที่เป็นนวัตกรรมที่ออกแบบมาเพื่อปรับปรุงประสบการณ์ผู้ใช้สำหรับการนำทางเว็บไซต์ IIIT Nagpur สร้างขึ้นด้วยการเรียนรู้ของเครื่องจักรที่ทันสมัย (ML), การประมวลผลภาษาธรรมชาติ (NLP), และโมเดลภาษาขนาดใหญ่ (LLMS), DISHA ให้การตอบสนองที่เป็นมิตรกับผู้ใช้ทันที
คุณสมบัติ
การมีปฏิสัมพันธ์กับมนุษย์
- เปิดใช้งานการสนทนาที่เป็นธรรมชาติและใช้งานง่าย
- ให้คำตอบที่ถูกต้องและบริบทสำหรับการสอบถามเกี่ยวกับ IIIT Nagpur
อินพุตเสียง
การประมวลผลและโครงสร้างข้อมูล
- แยกข้อความและรูปภาพจากเว็บไซต์ของ IIIT Nagpur โดยใช้ OCR
- โครงสร้างข้อมูลเป็นรูปแบบ JSON ที่ครอบคลุมสำหรับการฝึกอบรม
การตอบสนองแบบรวมและแม่นยำ
- รวม LLMs ที่ปรับจูนและการดึง (RAG) สำหรับคำตอบที่แม่นยำ
- การตอบสนองได้รับการตรวจสอบเพื่อความน่าเชื่อถือสูงสุด
ตัวชี้วัดการประเมินผล
- วัดคุณภาพเอาต์พุตโดยใช้ Bleu, Rouge-L, ความคล้ายคลึงกันทางความหมายและการวัดคะแนนของมนุษย์
เทคโนโลยีสำคัญ
รูปแบบการเรียนรู้ของเครื่องจักร
- LLAMA-3.2-1B : ปรับค่าได้อย่างละเอียดด้วยค่าอันดับ R-8, R-16, R-32 และ Phi-3.5
- Phi-3.5-mini
- เทคนิค PEFT : การปรับจูนอย่างมีประสิทธิภาพด้วย LORA และ QLORA
Generation Retrieval-Augmented (RAG)
- ดึงข้อมูลที่ถูกต้องและเกี่ยวข้องกับบริบทจากฐานข้อมูลภายนอก
- ใช้ประโยชน์:
- PINECONE : ฐานข้อมูลเวกเตอร์สำหรับการค้นหาและการดึงที่ดีที่สุด
- Langchain : สำหรับท่อข้อมูลที่ราบรื่น
- Google Gemini API : ให้คำตอบที่ถูกต้องและสรุปได้
ตารางการประเมินผล
| แบบอย่าง | เบลา | rouge-l | ความคล้ายคลึงกันทางความหมาย | การประเมินของมนุษย์ | พารามิเตอร์ที่ผ่านการฝึกอบรม |
|---|
| LLAMA-3.2-1B (r = 8) | 0.925700 | 0.964550 | 0.998106 | 0.934744 | 12,156,928 |
| LLAMA-3.2-1B (r = 16) | 0.925950 | 0.964757 | 0.998106 | 0.942012 | 24,313,856 |
| LLAMA-3.2-1B (r = 32) | 0.924404 | 0.963656 | 0.998096 | 0.946338 | 48,627,712 |
| phi 3.5 mini | 0.785048 | 0.886750 | 0.998205 | 0.852504 | 29,884,416 |
| ผ้าขี้ริ้ว | 0.964902 | 0.996087 | 0.995800 | 0.967379 | 0 |
โมเดลที่ผ่านการฝึกอบรม
- llama-3.2-1b r = 8 ลิงก์
- llama-3.2-1b r = 16 ลิงก์
- llama-3.2-1b r = 32 ลิงก์
- ลิงค์ Phi-3.5-mini
เว็บอินเตอร์เฟส - ใบหน้ากอด
ภาพรวมสถาปัตยกรรม
ข่าวกรองแบบครบวงจร
- รวม RAG และ LLM ที่ปรับแต่งเพื่อประสิทธิภาพที่แข็งแกร่ง
การอนุรักษ์บริบท
- มั่นใจได้ว่ารายละเอียดที่สำคัญทั้งหมดจะรวมอยู่ในคำตอบ
การไหลตามธรรมชาติ
- ส่งมอบการโต้ตอบที่ใช้งานง่ายและการสนทนา
แผนการในอนาคต
- ขยายการสนับสนุนภาษานอกเหนือจากภาษาฮินดีและภาษาอังกฤษ
- เพิ่มความสามารถในการปรับขนาดสำหรับชุดข้อมูลขนาดใหญ่และการสืบค้นที่ซับซ้อนมากขึ้น
- รวมตัวชี้วัดการประเมินเพิ่มเติมเพื่อปรับปรุงความแม่นยำ
อย่าลังเลที่จะแยกมีส่วนร่วมและปรับปรุง DISHA สำหรับแอปพลิเคชันที่กว้างขึ้น!