Descarga CUDAQuest Semantic Crawl to Answer Engine - Descargar el código fuente CUDAQuest Semantic Crawl to Answer Engine Descarga

CUDAQuest Semantic Crawl to Answer Engine

Otro código fuente

1.0.0

Descargar

Sistema de control de calidad de documentación CUDA

Este proyecto implementa un sistema de respuesta (QA) para la documentación CUDA. Ratea la documentación de NVIDIA CUDA, procesa los datos, los almacena en una base de datos vectorial y utiliza técnicas de recuperación avanzadas para responder consultas de los usuarios.

Características

Rastreo web de la documentación de Nvidia Cuda
Following avanzado de datos basados en la similitud semántica
La creación y almacenamiento de la incrustación de vectores en la base de datos de Milvus
Expansión de consulta para una recuperación mejorada
Recuperación híbrida que combina BM25 y métodos basados en Bert
Respuesta de preguntas con un modelo de idioma

Instrucciones de configuración

Requisitos previos

Python 3.7+
Pip (instalador de paquetes de Python)

Instalación

Clon el repositorio:
Crear un entorno virtual (opcional pero recomendado):
Instale las dependencias requeridas:

Dependencias

Las principales dependencias para este proyecto son:

Scrapy: para rastreo web
Transformadores de oraciones: para incrustaciones de texto
NLTK: para tareas de procesamiento del lenguaje natural
Rank_BM25: para recuperación de BM25
Torch and Transformers: para trabajar con modelos Transformer
Streamlit: para crear aplicaciones web
Selenium y WebDriver_Manager: para raspado web
Pymilvus: para interactuar con la base de datos de Milvus Vector

Para obtener una lista completa de dependencias, consulte el archivo requirements.txt .

Ejecutando el sistema

Asegúrese de tener un servidor Milvus en ejecución. Consulte la documentación de Milvus para obtener instrucciones de instalación y configuración.
Ejecute el script principal: 3. El sistema comenzará arrastrando la documentación CUDA, procesando los datos y almacenándolo en la base de datos de Milvus. Esta configuración inicial puede llevar algo de tiempo.
Una vez que se completa la configuración, puede comenzar a hacer preguntas sobre CUDA. El sistema proporcionará respuestas basadas en la información recuperada.
Para salir del sistema, escriba 'renunciar' cuando se le solicite una pregunta.

Estructura de proyectos

main.py : el script principal que orquesta todo el proceso.
crawler/web_crawler.py : contiene la lógica de rastreo web.
data_processing/chunking.py : implementa técnicas avanzadas de fragmentación de datos.
data_processing/embedding.py : maneja la creación de embedidas vectoriales.
vector_db/milvus_db.py : administra interacciones con la base de datos Milvus.
retrieval/query_expansion.py : implementa técnicas de expansión de consultas.
retrieval/hybrid_retrieval.py : contiene la lógica de recuperación híbrida.
qa/llm_qa.py : administra el proceso de respuesta de la pregunta utilizando un modelo de idioma.

Personalización

Puede ajustar el modelo de incrustación modificando el modelo SentenceTransformer en main.py
La profundidad del rastreo web se puede ajustar en la función crawl_data (actualmente establecida en 5 niveles).
El número de fragmentos recuperados para responder se puede modificar cambiando el parámetro top_k en la llamada del método retrieve .

Solución de problemas

Si encuentra algún problema:

Asegúrese de que todas las dependencias estén instaladas correctamente.
Verifique que el servidor Milvus se esté ejecutando y sea accesible.
Verifique que tenga una conexión a Internet estable para rastreo web y descargas de modelos.

Para cualquier problema persistente, abra un problema en el repositorio de GitHub.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-31
tamaño 8.78KB
Proviene de Github

Aplicaciones relacionadas

FNF JS Engine

2024-11-10
Rastreo de proyectos

2023-06-15
Motor de plantillas PHPnow

2013-10-31
Motor de vida de datos

2011-05-16
Motor XOOPS

2011-05-05
Motor de plantillas Xmark

2010-06-25

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo