CUDAQuest Semantic Crawl to Answer Engine CUDAQuest Semantic Crawl to Answer Engine

CUDAQuest Semantic Crawl to Answer Engine

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

CUDA Documentation ระบบ QA

โครงการนี้ใช้ระบบตอบคำถาม (QA) สำหรับเอกสาร CUDA มันรวบรวมข้อมูลเอกสาร Nvidia CUDA ประมวลผลข้อมูลเก็บไว้ในฐานข้อมูลเวกเตอร์และใช้เทคนิคการดึงข้อมูลขั้นสูงเพื่อตอบคำถามของผู้ใช้

คุณสมบัติ

การรวบรวมข้อมูลเว็บของเอกสาร Nvidia Cuda
ข้อมูลขั้นสูงขึ้นอยู่กับความคล้ายคลึงกันของความหมาย
การสร้างและการจัดเก็บข้อมูลเวกเตอร์ในฐานข้อมูล Milvus
การขยายแบบสอบถามสำหรับการสืบค้นที่ดีขึ้น
การดึงไฮบริดรวมวิธี BM25 และ BERT-based Methods
การตอบคำถามโดยใช้รูปแบบภาษา

คำแนะนำการตั้งค่า

ข้อกำหนดเบื้องต้น

Python 3.7+
PIP (Python Package Installer)

การติดตั้ง

โคลนที่เก็บ:
สร้างสภาพแวดล้อมเสมือนจริง (เป็นทางเลือก แต่แนะนำ):
ติดตั้งการพึ่งพาที่ต้องการ:

การพึ่งพาอาศัยกัน

การพึ่งพาหลักสำหรับโครงการนี้คือ:

Scrapy: สำหรับการรวบรวมข้อมูลเว็บ
ประโยค-transformers: สำหรับการฝังข้อความ
NLTK: สำหรับงานการประมวลผลภาษาธรรมชาติ
RANK_BM25: สำหรับการดึง BM25
Torch and Transformers: สำหรับการทำงานกับโมเดล Transformer
Streamlit: สำหรับการสร้างเว็บแอปพลิเคชัน
Selenium และ WebDriver_Manager: สำหรับการขูดเว็บ
Pymilvus: สำหรับการโต้ตอบกับฐานข้อมูล Milvus Vector

สำหรับรายการการพึ่งพาที่สมบูรณ์โปรดดูไฟล์ requirements.txt . txt

เรียกใช้ระบบ

ตรวจสอบให้แน่ใจว่าคุณมีเซิร์ฟเวอร์ Milvus ทำงาน อ้างถึงเอกสาร Milvus สำหรับคำแนะนำในการติดตั้งและการตั้งค่า
เรียกใช้สคริปต์หลัก: 3. ระบบจะเริ่มต้นด้วยการรวบรวมข้อมูลเอกสาร CUDA ประมวลผลข้อมูลและจัดเก็บไว้ในฐานข้อมูล Milvus การตั้งค่าเริ่มต้นนี้อาจใช้เวลาพอสมควร
เมื่อการตั้งค่าเสร็จสมบูรณ์คุณสามารถเริ่มถามคำถามเกี่ยวกับ CUDA ระบบจะให้คำตอบตามข้อมูลที่ดึงมา
หากต้องการออกจากระบบให้พิมพ์ 'ออก' เมื่อได้รับแจ้งสำหรับคำถาม

โครงสร้างโครงการ

main.py : สคริปต์หลักที่จัดทำกระบวนการทั้งหมด
crawler/web_crawler.py : มีตรรกะการรวบรวมข้อมูลเว็บ
data_processing/chunking.py : ใช้เทคนิคการใช้ข้อมูลขั้นสูง
data_processing/embedding.py : จัดการการสร้างเวกเตอร์ฝังตัว
vector_db/milvus_db.py : จัดการการโต้ตอบกับฐานข้อมูล Milvus
retrieval/query_expansion.py : ใช้เทคนิคการขยายแบบสอบถาม
retrieval/hybrid_retrieval.py : มีตรรกะการดึงไฮบริด
qa/llm_qa.py : จัดการกระบวนการตอบคำถามโดยใช้แบบจำลองภาษา

การปรับแต่ง

คุณสามารถปรับรูปแบบการฝังโดยการปรับเปลี่ยนโมเดล SentenceTransformer ใน main.py
ความลึกของการรวบรวมข้อมูลเว็บสามารถปรับได้ในฟังก์ชั่นการ crawl_data (ปัจจุบันตั้งค่าเป็น 5 ระดับ)
จำนวนชิ้นที่ดึงมาสำหรับการตอบรับสามารถแก้ไขได้โดยการเปลี่ยนพารามิเตอร์ top_k ในการเรียกใช้วิธี retrieve

การแก้ไขปัญหา

หากคุณพบปัญหาใด ๆ :

ตรวจสอบให้แน่ใจว่าการพึ่งพาทั้งหมดได้รับการติดตั้งอย่างถูกต้อง
ตรวจสอบว่าเซิร์ฟเวอร์ Milvus กำลังทำงานและเข้าถึงได้
ตรวจสอบว่าคุณมีการเชื่อมต่ออินเทอร์เน็ตที่มีเสถียรภาพสำหรับการรวบรวมข้อมูลเว็บและการดาวน์โหลดแบบจำลอง

สำหรับปัญหาใด ๆ โปรดเปิดปัญหาในที่เก็บ GitHub

ขยาย

ข้อมูลเพิ่มเติม