CUDAQuest Semantic Crawl to Answer Engine
1.0.0
該項目實現了CUDA文檔的問答系統(QA)系統。它抓取了NVIDIA CUDA文檔,處理數據,將其存儲在矢量數據庫中,並使用高級檢索技術來回答用戶查詢。
該項目的主要依賴項是:
有關依賴項的完整列表,請參閱requirements.txt文件。
確保您運行Milvus服務器。有關安裝和設置說明,請參閱MILVUS文檔。
運行主腳本:3。系統將首先爬行CUDA文檔,處理數據並將其存儲在MILVUS數據庫中。此初始設置可能需要一些時間。
設置完成後,您可以開始詢問有關CUDA的問題。該系統將根據檢索到的信息提供答案。
要退出系統,請在提示問題時輸入“退出”。
main.py :整理整個過程的主要腳本。crawler/web_crawler.py :包含網絡爬行邏輯。data_processing/chunking.py :實施高級數據塊技術。data_processing/embedding.py :處理向量嵌入的創建。vector_db/milvus_db.py :管理與MILVUS數據庫的交互。retrieval/query_expansion.py :實現查詢擴展技術。retrieval/hybrid_retrieval.py :包含混合檢索邏輯。qa/llm_qa.py :使用語言模型管理問題回答過程。 main.py修改SentenceTransformer模型來調整嵌入模型。crawl_data功能(當前設置為5個級別)中調整Web爬網的深度。retrieve方法調用中的top_k參數來修改檢索到答案的塊的數量。 如果您遇到任何問題:
對於任何持續問題,請在GitHub存儲庫中打開一個問題。