CollegeChatbot
1.0.0
このプロジェクトは、大規模な言語モデル(LLMS)、テキスト埋め込み、検索された生成(RAG)、および迅速なエンジニアリング技術の組み合わせを使用して、グローバルアカデミーオブテクノロジー(GAT)に関連する質問に答えるように設計されたQ&Aチャットボットです。チャットボットは、テキストとオーディオの両方の入力を処理でき、会話履歴とプリロードドキュメントに基づいて関連する回答を提供できます。
リポジトリをクローンします
git clone https://github.com/mahadev0811/CollegeChatbot.git
cd CollegeChatbot仮想環境を作成します
python -m venv venv
source venv/bin/activate # On Windows use `venvScriptsactivate`依存関係をインストールします
pip install -r requirements.txtAPIキーを構成します
config.jsonファイルを作成します。 {
"google_api_key" : " YOUR_GOOGLE_API_KEY "
}アプリケーションを実行します
streamlit run st_app.pyチャットボットと対話します
最初のRAWデータファイル( gat_raw.txt )を生成するには、 webscrapper.ipynbノートブックを使用します。このノートブックは、指定されたURLからテキストコンテンツを削り、適切にフォーマットします。
データファイルから埋め込みを生成するには、 embedding_generator.pyスクリプトを使用します。このスクリプトは、データを含むテキストファイルを読み取り、 flagembeddingモデルを使用して埋め込みを生成し、埋め込みをピクルスファイルとして保存します。
引数としてデータファイルへのパスを使用して、埋め込み_generator.pyスクリプトを実行します。
python embedding_generator.py --data_file data_generation/gat_refined.txtスクリプトは、データファイルの段落の埋め込みを生成し、ピクルスファイル( gat_embeddings.pkl )として保存します。
このプロジェクトは、MITライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。