CUDAQuest Semantic Crawl to Answer Engine
1.0.0
이 프로젝트는 CUDA 문서화에 대한 질문 답변 (QA) 시스템을 구현합니다. NVIDIA CUDA 문서를 크롤링하고 데이터를 처리하고 벡터 데이터베이스에 저장하며 고급 검색 기술을 사용하여 사용자 쿼리에 답변합니다.
이 프로젝트의 주요 종속성은 다음과 같습니다.
전체 종속성 목록은 requirements.txt 파일.
Milvus 서버가 실행 중인지 확인하십시오. 설치 및 설정 지침은 Milvus 문서를 참조하십시오.
기본 스크립트를 실행합니다. 3. 시스템은 CUDA 문서를 크롤링하고 데이터 처리 및 Milvus 데이터베이스에 저장하여 시작합니다. 이 초기 설정에는 시간이 걸릴 수 있습니다.
설정이 완료되면 CUDA에 대한 질문을 시작할 수 있습니다. 시스템은 검색된 정보를 기반으로 답변을 제공합니다.
시스템을 종료하려면 질문이 제기되면 '종료'를 입력하십시오.
main.py : 전체 프로세스를 오케스트레이션하는 메인 스크립트.crawler/web_crawler.py : 웹 크롤링 로직을 포함합니다.data_processing/chunking.py : 고급 데이터 청크 기술을 구현합니다.data_processing/embedding.py : 벡터 임베딩의 생성을 처리합니다.vector_db/milvus_db.py : Milvus 데이터베이스와의 상호 작용을 관리합니다.retrieval/query_expansion.py : 쿼리 확장 기술을 구현합니다.retrieval/hybrid_retrieval.py : 하이브리드 검색 논리가 포함되어 있습니다.qa/llm_qa.py : 언어 모델을 사용하여 질문 응답 프로세스를 관리합니다. main.py 에서 SentenceTransformer 모델을 수정하여 임베딩 모델을 조정할 수 있습니다.crawl_data 기능 (현재 5 레벨로 설정)에서 조정할 수 있습니다.retrieve 메소드 호출에서 top_k 매개 변수를 변경하여 응답을 위해 검색된 청크의 수를 수정할 수 있습니다. 문제가 발생하면 다음과 같습니다.
지속적인 문제는 Github 저장소에서 문제를 열어주십시오.