Proyek ini mengimplementasikan sistem Penjawab Pertanyaan (QA) untuk dokumentasi CUDA. Ini merangkak dokumentasi NVIDIA CUDA, memproses data, menyimpannya dalam database vektor, dan menggunakan teknik pengambilan lanjutan untuk menjawab kueri pengguna.
Ketergantungan utama untuk proyek ini adalah:
Untuk daftar lengkap dependensi, lihat file requirements.txt .
Pastikan Anda menjalankan server Milvus. Lihat dokumentasi MILVUS untuk instruksi instalasi dan pengaturan.
Jalankan skrip utama: 3. Sistem akan dimulai dengan merangkak dokumentasi CUDA, memproses data, dan menyimpannya di database Milvus. Pengaturan awal ini mungkin memakan waktu.
Setelah pengaturan selesai, Anda dapat mulai mengajukan pertanyaan tentang CUDA. Sistem akan memberikan jawaban berdasarkan informasi yang diambil.
Untuk keluar dari sistem, ketik 'berhenti' saat diminta pertanyaan.
main.py : Script utama yang mengatur seluruh proses.crawler/web_crawler.py : Berisi logika perayapan web.data_processing/chunking.py : Menerapkan teknik chunking data canggih.data_processing/embedding.py : menangani pembuatan embeddings vektor.vector_db/milvus_db.py : mengelola interaksi dengan database Milvus.retrieval/query_expansion.py : Menerapkan teknik ekspansi kueri.retrieval/hybrid_retrieval.py : berisi logika pengambilan hibrida.qa/llm_qa.py : Mengelola proses penjawab pertanyaan menggunakan model bahasa. SentenceTransformer di main.pycrawl_data (saat ini diatur ke 5 level).top_k dalam panggilan metode retrieve . Jika Anda mengalami masalah:
Untuk masalah yang terus -menerus, buka masalah di repositori GitHub.