Disha - chatbot iiit nagpur
Selamat datang di repositori Disha Chatbot Github! Proyek ini adalah solusi inovatif yang dirancang untuk merampingkan pengalaman pengguna untuk menavigasi situs web IIIT Nagpur. Dibangun dengan pembelajaran mesin mutakhir (ML), pemrosesan bahasa alami (NLP), dan model bahasa besar (LLM), Disha memberikan respons instan dan ramah pengguna terhadap berbagai pertanyaan.
Fitur
Interaksi seperti manusia
- Memungkinkan percakapan alami dan intuitif.
- Memberikan jawaban yang akurat dan kontekstual untuk pertanyaan tentang IIIT Nagpur.
Input suara
Pemrosesan dan penataan data
- Mengekstrak teks dan gambar dari situs web IIIT Nagpur menggunakan OCR.
- Struktur data menjadi format JSON yang komprehensif untuk pelatihan.
Tanggapan terpadu dan akurat
- Menggabungkan LLMS yang disesuaikan dan generasi pengambilan-pengambilan (RAG) untuk jawaban yang tepat.
- Respons diverifikasi untuk keandalan maksimum.
Metrik evaluasi
- Mengukur kualitas output menggunakan bleu, rouge-l, kesamaan semantik, dan metrik skor manusia.
Teknologi Utama
Model Pembelajaran Mesin
- LLAMA-3.2-1B : disesuaikan dengan nilai peringkat R-8, R-16, R-32, dan Phi-3.5.
- Phi-3.5-mini
- Teknik PEFT : Fine-tuning yang efisien dengan Lora dan Qlora.
Retrieval-Agusted Generation (RAG)
- Mengambil data yang akurat dan relevan secara kontekstual dari database eksternal.
- Memanfaatkan:
- Pinecone : Database vektor untuk pencarian dan pengambilan yang dioptimalkan.
- Langchain : Untuk pipa data yang mulus.
- Google Gemini API : Memberikan jawaban yang akurat dan diringkas.
Tabel Metrik Evaluasi
| Model | Bleu | Rouge-l | Kesamaan semantik | Evaluasi manusia | Parameter terlatih |
|---|
| Llama-3.2-1b (r = 8) | 0.925700 | 0.964550 | 0.998106 | 0.934744 | 12.156.928 |
| Llama-3.2-1b (r = 16) | 0.925950 | 0.964757 | 0.998106 | 0.942012 | 24.313.856 |
| Llama-3.2-1b (r = 32) | 0.924404 | 0.963656 | 0.998096 | 0.946338 | 48.627.712 |
| Phi 3.5 mini | 0.785048 | 0.886750 | 0.998205 | 0.852504 | 29.884.416 |
| LAP | 0.964902 | 0.996087 | 0.995800 | 0.967379 | 0 |
Model terlatih
- Llama-3.2-1b r = 8 tautan
- Llama-3.2-1b r = 16 tautan
- Llama-3.2-1b r = 32 tautan
- Tautan phi-3.5-mini
Antarmuka Web - Wajah Memeluk
Tinjauan Arsitektur
Intelijen Terpadu
- Mengintegrasikan Rag dan LLM yang disesuaikan untuk kinerja yang kuat.
Pelestarian Konteks
- Memastikan semua detail kritis termasuk dalam tanggapan.
Aliran alami
- Memberikan interaksi percakapan yang ramah pengguna.
Rencana masa depan
- Perluas dukungan bahasa di luar bahasa Hindi dan Inggris.
- Tingkatkan skalabilitas untuk kumpulan data yang lebih besar dan kueri yang lebih kompleks.
- Mengintegrasikan metrik evaluasi tambahan untuk meningkatkan akurasi.
Jangan ragu untuk membayar, berkontribusi, dan meningkatkan Disha untuk aplikasi yang lebih luas!