CUDAQuest Semantic Crawl to Answer Engine - CUDAQuest Semantic Crawl to Answer Engine

CUDAQuest Semantic Crawl to Answer Engine

شفرة المصدر الأخرى

1.0.0

تنزيل

CUDA Documentation QA System

ينفذ هذا المشروع نظام إجابة (QA) لوثائق CUDA. يزحف وثائق NVIDIA CUDA ، ويعالج البيانات ، ويخزنها في قاعدة بيانات المتجهات ، ويستخدم تقنيات استرجاع متقدمة للإجابة على استعلامات المستخدم.

سمات

تزحف الويب من وثائق NVIDIA CUDA
صقل البيانات المتقدم بناءً على التشابه الدلالي
إنشاء ناقلات إنشاء وتخزين في قاعدة بيانات ميلفوس
توسيع الاستعلام لتحسين الاسترجاع
الاسترجاع المختلط الجمع بين BM25 والطرق المستندة إلى BERT
أسئلة الإجابة باستخدام نموذج اللغة

تعليمات الإعداد

المتطلبات الأساسية

بيثون 3.7+
PIP (مثبت حزمة Python)

تثبيت

استنساخ المستودع:
إنشاء بيئة افتراضية (اختياري ولكن موصى بها):
تثبيت التبعيات المطلوبة:

التبعيات

التبعيات الرئيسية لهذا المشروع هي:

SCRAPY: لزحف الويب
محولات الجملة: للتضمينات النصية
NLTK: لمهام معالجة اللغة الطبيعية
RANK_BM25: لاسترجاع BM25
الشعلة والمحولات: للعمل مع نماذج المحولات
SPEREMLIT: لإنشاء تطبيقات الويب
السيلينيوم و webdriver_manager: من أجل تجريف الويب
Pymilvus: للتفاعل مع قاعدة بيانات ناقل Milvus

للحصول على قائمة كاملة من التبعيات ، راجع ملف requirements.txt .

تشغيل النظام

تأكد من تشغيل خادم Milvus. ارجع إلى وثائق Milvus للتثبيت وإعداد تعليمات الإعداد.
قم بتشغيل البرنامج النصي الرئيسي: 3. سيبدأ النظام عن طريق تزحف وثائق CUDA ومعالجة البيانات وتخزينها في قاعدة بيانات Milvus. قد يستغرق هذا الإعداد الأولي بعض الوقت.
بمجرد اكتمال الإعداد ، يمكنك البدء في طرح أسئلة حول CUDA. سيقدم النظام إجابات بناءً على المعلومات التي تم استردادها.
للخروج من النظام ، اكتب "الإقلاع" عند المطالبة بسؤال.

هيكل المشروع

main.py : البرنامج النصي الرئيسي الذي ينظم العملية بأكملها.
crawler/web_crawler.py : يحتوي على منطق زحف الويب.
data_processing/chunking.py : تنفذ تقنيات تقطيع البيانات المتقدمة.
data_processing/embedding.py : يتعامل مع إنشاء التضمينات المتجهات.
vector_db/milvus_db.py : يدير التفاعلات مع قاعدة بيانات Milvus.
retrieval/query_expansion.py : تنفذ تقنيات توسيع الاستعلام.
retrieval/hybrid_retrieval.py : يحتوي على منطق الاسترجاع المختلط.
qa/llm_qa.py : يدير عملية الإجابة على الأسئلة باستخدام نموذج لغة.

التخصيص

يمكنك ضبط نموذج التضمين عن طريق تعديل نموذج SentenceTransformer في main.py
يمكن ضبط عمق تزحف الويب في وظيفة crawl_data (تم تعيينها حاليًا على 5 مستويات).
يمكن تعديل عدد القطع التي تم استرجاعها للرد عن طريق تغيير معلمة top_k في استدعاء طريقة retrieve .