ディシャ - チャットボットIIITナグプール
Disha Chatbot Githubリポジトリへようこそ!このプロジェクトは、IIIT Nagpur Webサイトをナビゲートするためのユーザーエクスペリエンスを合理化するために設計された革新的なソリューションです。最先端の機械学習(ML)、自然言語処理(NLP)、および大規模な言語モデル(LLM)で構築されたDishaは、さまざまなクエリに対して即座にユーザーフレンドリーな応答を提供します。
特徴
人間のような相互作用
- 自然で直感的な会話を可能にします。
- iiit nagpurに関するクエリに対する正確でコンテキストの回答を提供します。
音声入力
データ処理と構造化
- OCRを使用して、IIIT NagpurのWebサイトからテキストと画像を抽出します。
- トレーニング用の包括的なJSON形式にデータを構成します。
統一された正確な応答
- 正確な回答のために、微調整されたLLMと検索の高等発電(RAG)を組み合わせます。
- 応答は、信頼性を最大にするために検証されます。
評価メトリック
- BLEU、Rouge-L、セマンティックな類似性、および人間のスコアメトリックを使用した出力品質を測定します。
重要なテクノロジー
機械学習モデル
- Llama-3.2-1B :ランク値R-8、R-16、R-32、およびPHI-3.5で微調整されています。
- Phi-3.5-mini
- PEFTテクニック:ロラとQloraを使用した効率的な微調整。
検索された生成(rag)
- 外部データベースから正確でコンテキストに関連するデータを取得します。
- 利用:
- Pinecone :最適化された検索と検索のためのVectorデータベース。
- Langchain :シームレスなデータパイプライン用。
- Google Gemini API :正確で要約された回答を提供します。
評価メトリックテーブル
| モデル | ブルー | ルージュ-l | セマンティックな類似性 | 人間の評価 | 訓練されたパラメーター |
|---|
| llama-3.2-1b(r = 8) | 0.925700 | 0.964550 | 0.998106 | 0.934744 | 12,156,928 |
| llama-3.2-1b(r = 16) | 0.925950 | 0.964757 | 0.998106 | 0.942012 | 24,313,856 |
| llama-3.2-1b(r = 32) | 0.924404 | 0.963656 | 0.998096 | 0.946338 | 48,627,712 |
| Phi 3.5 Mini | 0.785048 | 0.886750 | 0.998205 | 0.852504 | 29,884,416 |
| ぼろきれ | 0.964902 | 0.996087 | 0.995800 | 0.967379 | 0 |
訓練されたモデル
- llama-3.2-1b r = 8リンク
- llama-3.2-1b r = 16リンク
- llama-3.2-1b r = 32リンク
- Phi-3.5-miniリンク
Webインターフェイス - 顔を抱き締める
アーキテクチャの概要
統一されたインテリジェンス
- 堅牢なパフォーマンスのために、RAGと微調整されたLLMを統合します。
コンテキスト保存
自然の流れ
- ユーザーフレンドリーな会話の相互作用を提供します。
将来の計画
- ヒンディー語と英語を超えて言語サポートを拡大します。
- より大きなデータセットとより複雑なクエリのスケーラビリティを強化します。
- 追加の評価メトリックを統合して、精度を向上させます。
より広範なアプリケーションのために、Dishaをフォークし、貢献し、強化してください!