Disha -Chatbot IIIT Nagpur
Disha Chatbot Github 저장소에 오신 것을 환영합니다! 이 프로젝트는 IIIT Nagpur 웹 사이트를 탐색하기위한 사용자 경험을 간소화하기 위해 설계된 혁신적인 솔루션입니다. 최첨단 머신 러닝 (ML), NLP (Natural Language Processing) 및 LLM (Lange Language Model) (LLM)으로 구축 된 Disha는 다양한 쿼리에 대한 즉각적이고 사용자 친화적 인 응답을 제공합니다.
특징
인간과 같은 상호 작용
- 자연스럽고 직관적 인 대화를 가능하게합니다.
- IIIT Nagpur에 대한 쿼리에 대한 정확하고 상황에 맞는 답변을 제공합니다.
음성 입력
데이터 처리 및 구조화
- OCR을 사용하여 IIIT Nagpur 웹 사이트에서 텍스트와 이미지를 추출합니다.
- 교육을위한 포괄적 인 JSON 형식으로 데이터를 구조화합니다.
통일되고 정확한 응답
- 정확한 답변을 위해 미세 조정 된 LLM과 검색 방지 생성 (RAG)을 결합합니다.
- 최대 신뢰성에 대해 응답이 확인됩니다.
평가 지표
- Bleu, Rouge-L, 시맨틱 유사성 및 인간 점수 지표를 사용하여 출력 품질을 측정합니다.
주요 기술
기계 학습 모델
- LLAMA-3.2-1B : 순위 값 R-8, R-16, R-32 및 PHI-3.5로 미세 조정.
- PHI-3.5-MINI
- PEFT 기술 : LORA 및 QLORA와의 효율적인 미세 조정.
검색 세대 (rag)
- 외부 데이터베이스에서 정확하고 상황에 맞는 데이터를 검색합니다.
- 활용 :
- PENECONE : 최적화 된 검색 및 검색을위한 벡터 데이터베이스.
- Langchain : 원활한 데이터 파이프 라인 용.
- Google Gemini API : 정확하고 요약 된 답변을 제공합니다.
평가 메트릭 테이블
| 모델 | 블루 | 루즈 -L | 의미 론적 유사성 | 인간 평가 | 훈련 된 매개 변수 |
|---|
| llama-3.2-1b (r = 8) | 0.925700 | 0.964550 | 0.998106 | 0.934744 | 12,156,928 |
| llama-3.2-1b (r = 16) | 0.925950 | 0.964757 | 0.998106 | 0.942012 | 24,313,856 |
| llama-3.2-1b (r = 32) | 0.924404 | 0.963656 | 0.998096 | 0.946338 | 48,627,712 |
| PHI 3.5 미니 | 0.785048 | 0.886750 | 0.998205 | 0.852504 | 29,884,416 |
| 조각 | 0.964902 | 0.996087 | 0.995800 | 0.967379 | 0 |
훈련 된 모델
- llama-3.2-1b r = 8 링크
- llama-3.2-1b r = 16 링크
- llama-3.2-1b r = 32 링크
- PHI-3.5-MINI 링크
웹 인터페이스 - 포옹
아키텍처 개요
통일 된 지능
- 강력한 성능을 위해 Rag 및 미세 조정 된 LLM을 통합합니다.
상황 보존
- 모든 중요한 세부 사항이 응답에 포함되도록합니다.
자연 흐름
- 사용자 친화적이고 대화적인 상호 작용을 제공합니다.
미래 계획
- 힌디어와 영어를 넘어 언어 지원을 확장하십시오.
- 더 큰 데이터 세트와 더 복잡한 쿼리의 확장 성을 향상시킵니다.
- 추가 평가 메트릭을 통합하여 정확도를 향상시킵니다.
더 넓은 응용 분야를 위해 Fork, Contrate 및 Disha를 강화하십시오!