CUDAQuest Semantic Crawl to Answer Engine
1.0.0
このプロジェクトは、CUDAドキュメントのための質問応答(QA)システムを実装しています。 Nvidia Cudaのドキュメントをクロールし、データを処理し、ベクトルデータベースに保存し、高度な検索技術を使用してユーザークエリに答える。
このプロジェクトの主な依存関係は次のとおりです。
依存関係の完全なリストについては、 requirements.txtファイルを参照してください。
Milvusサーバーが実行されていることを確認してください。インストールおよびセットアップの手順については、Milvusドキュメントを参照してください。
メインスクリプトを実行します。3。システムは、CUDAドキュメントをクロールし、データを処理し、Milvusデータベースに保存することから始めます。この最初のセットアップには時間がかかる場合があります。
セットアップが完了したら、CUDAについて質問を始めることができます。システムは、取得された情報に基づいて回答を提供します。
システムを終了するには、質問が求められたら「QUIT」と入力します。
main.py :プロセス全体を調整するメインスクリプト。crawler/web_crawler.py :Webクロールロジックが含まれています。data_processing/chunking.py :高度なデータチャンキングテクニックを実装します。data_processing/embedding.py :ベクトル埋め込みの作成を処理します。vector_db/milvus_db.py :Milvusデータベースとの相互作用を管理します。retrieval/query_expansion.py :クエリ拡張手法を実装します。retrieval/hybrid_retrieval.py :ハイブリッド検索ロジックが含まれています。qa/llm_qa.py :言語モデルを使用して質問回答プロセスを管理します。 main.pyのSentenceTransformerモデルを変更することにより、埋め込みモデルを調整できます。crawl_data関数(現在5レベルに設定されている)で調整できます。retrieveメソッド呼び出しでtop_kパラメーターを変更することで変更できます。 問題が発生した場合:
永続的な問題については、GitHubリポジトリで問題を開いてください。