DISHA - Чатбот IIIT NAGPUR
Добро пожаловать в репозиторий Disha Chatbot Github! Этот проект представляет собой инновационное решение, предназначенное для оптимизации пользовательского опыта для навигации на веб -сайте IIIT NAGPUR. Построенный из передового машинного обучения (ML), обработки естественного языка (NLP) и крупных языковых моделей (LLMS), Disha предоставляет мгновенные, удобные для пользователя ответы на различные запросы.
Функции
Человеческое взаимодействие
- Обеспечивает естественные и интуитивные разговоры.
- Обеспечивает точные и контекстуальные ответы на запросы о IIIT NAGPUR.
Голосовой вход
Обработка и структурирование данных
- Извлекает текст и изображения с веб -сайта IIIT Nagpur с использованием OCR.
- Структуры данных в комплексный формат JSON для обучения.
Единые и точные ответы
- Комбинирует тонко настроенные LLM и поколение поиска (RAG) для точных ответов.
- Ответы проверены на максимальную надежность.
Показатели оценки
- Измеряет качество выхода с использованием Bleu, Rouge-L, семантического сходства и показателей оценки человека.
Ключевые технологии
Модели машинного обучения
- Llama-3.2-1b : тонко настраивается со значениями ранга R-8, R-16, R-32 и PHI-3,5.
- PHI-3,5-минутный
- Методы PEFT : эффективная тонкая настройка с Лорой и Клорой.
Поколение поиска (RAG) (RAG)
- Получает точные, контекстуально релевантные данные из внешних баз данных.
- Используется:
- Pinecone : векторная база данных для оптимизированного поиска и поиска.
- Langchain : для бесшовных трубопроводов данных.
- Google Gemini API : предоставляет точные, суммированные ответы.
Таблица показателей оценки
| Модель | Блю | Rouge-L | Семантическое сходство | Человеческая оценка | Обученные параметры |
|---|
| Лама-3,2-1b (r = 8) | 0,925700 | 0,964550 | 0,998106 | 0,934744 | 12 156 928 |
| Лама-3,2-1b (r = 16) | 0,925950 | 0,964757 | 0,998106 | 0,942012 | 24 313 856 |
| Лама-3,2-1b (r = 32) | 0,924404 | 0,963656 | 0,998096 | 0,946338 | 48 627,712 |
| PHI 3,5 MINI | 0,785048 | 0,886750 | 0,998205 | 0,852504 | 29 884 416 |
| Тряпичный | 0,964902 | 0,996087 | 0,995800 | 0,967379 | 0 |
Обученные модели
- Лама-3,2-1b r = 8 Ссылка
- Лама-3,2-1b r = 16 Ссылка
- Llama-3.2-1b r = 32 Ссылка
- PHI-3,5-минутная ссылка
Веб -интерфейс - обнимающее лицо
Обзор архитектуры
Единый интеллект
- Интегрирует тряпичные и настраиваемые LLM для надежной производительности.
Контекст сохранение
- Обеспечивает включение всех критических деталей в ответы.
Естественный поток
- Предоставляет удобные, разговорные взаимодействия.
Планы на будущее
- Расширить языковую поддержку за пределами хинди и английского.
- Улучшить масштабируемость для более крупных наборов данных и более сложных запросов.
- Интегрировать дополнительные показатели оценки для повышения точности.
Не стесняйтесь вилка, вносить свой вклад и улучшать Disha для более широких приложений!