CUDAQuest Semantic Crawl to Answer Engine - CUDAQuest Semantic Crawl to Answer Engine

CUDAQuest Semantic Crawl to Answer Engine

Kode sumber lainnya

1.0.0

Unduh

Dokumentasi CUDA Sistem QA

Proyek ini mengimplementasikan sistem Penjawab Pertanyaan (QA) untuk dokumentasi CUDA. Ini merangkak dokumentasi NVIDIA CUDA, memproses data, menyimpannya dalam database vektor, dan menggunakan teknik pengambilan lanjutan untuk menjawab kueri pengguna.

Fitur

Web merangkak dokumentasi nvidia cuda
Data lanjutan chunking berdasarkan kesamaan semantik
Vektor menanamkan pembuatan dan penyimpanan dalam database milvus
Perluasan permintaan untuk peningkatan pengambilan
Pengambilan Hibrida Menggabungkan BM25 dan Metode Berbasis Bert
Pertanyaan menjawab menggunakan model bahasa

Petunjuk Pengaturan

Prasyarat

Python 3.7+
PIP (Penginstal Paket Python)

Instalasi

Klon Repositori:
Buat lingkungan virtual (opsional tetapi direkomendasikan):
Instal dependensi yang diperlukan:

Dependensi

Ketergantungan utama untuk proyek ini adalah:

Scrapy: untuk merangkak web
Transformer kalimat: untuk embeddings teks
NLTK: untuk tugas pemrosesan bahasa alami
RANK_BM25: untuk pengambilan BM25
Obor dan Transformers: Untuk bekerja dengan model transformator
StreamLit: Untuk membuat aplikasi web
selenium dan webdriver_manager: untuk pengikisan web
Pymilvus: Untuk berinteraksi dengan database Milvus Vector

Untuk daftar lengkap dependensi, lihat file requirements.txt .

Menjalankan sistem

Pastikan Anda menjalankan server Milvus. Lihat dokumentasi MILVUS untuk instruksi instalasi dan pengaturan.
Jalankan skrip utama: 3. Sistem akan dimulai dengan merangkak dokumentasi CUDA, memproses data, dan menyimpannya di database Milvus. Pengaturan awal ini mungkin memakan waktu.
Setelah pengaturan selesai, Anda dapat mulai mengajukan pertanyaan tentang CUDA. Sistem akan memberikan jawaban berdasarkan informasi yang diambil.
Untuk keluar dari sistem, ketik 'berhenti' saat diminta pertanyaan.

Struktur proyek

main.py : Script utama yang mengatur seluruh proses.
crawler/web_crawler.py : Berisi logika perayapan web.
data_processing/chunking.py : Menerapkan teknik chunking data canggih.
data_processing/embedding.py : menangani pembuatan embeddings vektor.
vector_db/milvus_db.py : mengelola interaksi dengan database Milvus.
retrieval/query_expansion.py : Menerapkan teknik ekspansi kueri.
retrieval/hybrid_retrieval.py : berisi logika pengambilan hibrida.
qa/llm_qa.py : Mengelola proses penjawab pertanyaan menggunakan model bahasa.

Kustomisasi

Anda dapat menyesuaikan model embedding dengan memodifikasi model SentenceTransformer di main.py
Kedalaman perayapan web dapat disesuaikan dalam fungsi crawl_data (saat ini diatur ke 5 level).
Jumlah potongan yang diambil untuk dijawab dapat dimodifikasi dengan mengubah parameter top_k dalam panggilan metode retrieve .

Pemecahan masalah

Jika Anda mengalami masalah:

Pastikan semua dependensi dipasang dengan benar.
Periksa apakah server Milvus berjalan dan dapat diakses.
Pastikan Anda memiliki koneksi internet yang stabil untuk merangkak web dan unduhan model.

Untuk masalah yang terus -menerus, buka masalah di repositori GitHub.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-05-31
ukuran 8.78KB
Berasal dari Github

Aplikasi Terkait

FNF JS Engine

2024-11-10
Perayapan Proyek

2023-06-15
Mesin templat PHPnow

2013-10-31
Mesin DataLife

2011-05-16
Mesin XOOPS

2011-05-05
Mesin Templat Xmark

2010-06-25

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua