CUDAQuest Semantic Crawl to Answer Engine Download - CUDAQuest Semantic Crawl to Answer Engine Source Code Download

CUDAQuest Semantic Crawl to Answer Engine

Anderer Quellcode

1.0.0

Herunterladen

CUDA -Dokumentation QA -System

Dieses Projekt implementiert ein Fragen zur Beantwortung (QA) für die CUDA -Dokumentation. Es kriecht die NVIDIA CUDA -Dokumentation, verarbeitet die Daten, speichert sie in einer Vektor -Datenbank und verwendet erweiterte Abruftechniken, um Benutzeranfragen zu beantworten.

Merkmale

Webkriechen von Nvidia Cuda -Dokumentation
Fortgeschrittene Datenchunking basierend auf semantischer Ähnlichkeit
Vektor -Einbettung der Erstellung und Speicherung in die Milvus -Datenbank
Abfrageerweiterung für ein verbessertes Abruf
Hybrid-Abruf kombiniert BM25- und Bert-basierte Methoden
Frage Beantwortung mit einem Sprachmodell

Setup -Anweisungen

Voraussetzungen

Python 3.7+
PIP (Python Package Installer)

Installation

Klonen Sie das Repository:
Erstellen Sie eine virtuelle Umgebung (optional, aber empfohlen):
Installieren Sie die erforderlichen Abhängigkeiten:

Abhängigkeiten

Die Hauptabhängigkeiten für dieses Projekt sind:

Scrapy: Für Web -Crawling
Satztransformer: Für Texteinbettungen
NLTK: Für Aufgaben für natürliche Sprachverarbeitungsaufgaben
RANK_BM25: Für BM25 Abruf
Fackel und Transformatoren: Zur Arbeit mit Transformatormodellen
Streamlit: Zum Erstellen von Webanwendungen
Selenium und Webdriver_Manager: Für Web -Scraping
PYMILVUS: Zur Interaktion mit der Milvus -Vektor -Datenbank

Eine vollständige Liste der Abhängigkeiten finden Sie in der Datei der requirements.txt .

Ausführen des Systems

Stellen Sie sicher, dass Sie einen Milvus -Server ausgeführt haben. In der Milvus -Dokumentation für Installations- und Setup -Anweisungen finden Sie in der Milvus -Dokumentation.
Führen Sie das Hauptskript aus: 3. Das System wird zunächst die CUDA -Dokumentation, die Verarbeitung der Daten und das Speichern in der Milvus -Datenbank durchkriechen. Dieses erste Setup kann einige Zeit dauern.
Sobald das Setup abgeschlossen ist, können Sie Fragen zu CUDA stellen. Das System bietet Antworten basierend auf den abgerufenen Informationen.
Um das System zu beenden, geben Sie "Beenden" ein, wenn Sie eine Frage aufgefordert haben.

Projektstruktur

main.py : Das Hauptskript, das den gesamten Prozess orchestriert.
crawler/web_crawler.py : Enthält die Web -Crawling -Logik.
data_processing/chunking.py : Implementiert erweiterte Daten -Chunking -Techniken.
data_processing/embedding.py .
vector_db/milvus_db.py : Verwaltet die Interaktionen mit der Milvus -Datenbank.
retrieval/query_expansion.py : Implementierung von Abfragetechniken.
retrieval/hybrid_retrieval.py : Enthält die Hybrid -Abruflogik.
qa/llm_qa.py : Verwaltet den Fragebeantwortungsvorgang mit einem Sprachmodell.

Anpassung

Sie können das Einbettungsmodell anpassen, indem Sie das SentenceTransformer -Modell in main.py ändern.
Die Tiefe des Webkriechs kann in der Funktion crawl_data angepasst werden (derzeit auf 5 Ebenen eingestellt).
Die Anzahl der abgerufenen Stücke für die Beantwortung kann geändert werden, indem der Parameter top_k im retrieve geändert wird.

Fehlerbehebung

Wenn Sie auf Probleme stoßen:

Stellen Sie sicher, dass alle Abhängigkeiten korrekt installiert sind.
Überprüfen Sie, ob der Milvus -Server ausgeführt und zugänglich ist.
Stellen Sie sicher, dass Sie über eine stabile Internetverbindung für Web -Crawling- und Modelldownloads verfügen.

Bei anhaltenden Problemen öffnen Sie bitte ein Problem im Github -Repository.

Expandieren

Zusätzliche Informationen