CUDAQuest Semantic Crawl to Answer Engine
1.0.0
该项目实现了CUDA文档的问答系统(QA)系统。它抓取了NVIDIA CUDA文档,处理数据,将其存储在矢量数据库中,并使用高级检索技术来回答用户查询。
该项目的主要依赖项是:
有关依赖项的完整列表,请参阅requirements.txt文件。
确保您运行Milvus服务器。有关安装和设置说明,请参阅MILVUS文档。
运行主脚本:3。系统将首先爬行CUDA文档,处理数据并将其存储在MILVUS数据库中。此初始设置可能需要一些时间。
设置完成后,您可以开始询问有关CUDA的问题。该系统将根据检索到的信息提供答案。
要退出系统,请在提示问题时输入“退出”。
main.py :整理整个过程的主要脚本。crawler/web_crawler.py :包含网络爬行逻辑。data_processing/chunking.py :实施高级数据块技术。data_processing/embedding.py :处理向量嵌入的创建。vector_db/milvus_db.py :管理与MILVUS数据库的交互。retrieval/query_expansion.py :实现查询扩展技术。retrieval/hybrid_retrieval.py :包含混合检索逻辑。qa/llm_qa.py :使用语言模型管理问题回答过程。 main.py修改SentenceTransformer模型来调整嵌入模型。crawl_data功能(当前设置为5个级别)中调整Web爬网的深度。retrieve方法调用中的top_k参数来修改检索到答案的块的数量。 如果您遇到任何问题:
对于任何持续问题,请在GitHub存储库中打开一个问题。