Descargar dspy arxiv - Descargar el código fuente de dspy arxiv

dspy arxiv

Código Fuente de IA

1.0.0

Descargar

dspy-arxiv

Explore el uso de DSPY para extraer características de PDFS. Este repositorio proporciona un ejemplo simple de cómo usar este marco para predecir la subcategoría de un documento de informática de ARXIV.

Instalación sugerida

Clon este repositorio.
Crear un entorno virtual.
Instale dependencias de requisitos.txt .
Instale el entorno virtual como un núcleo Jupyter.

Crear conjuntos de datos y base de datos

El conjunto de datos es una selección de 150 documentos ARXIV (metadatos + PDF) de la categoría de informática.

Para construir la base de datos:

Descargue el archivo JSON de Kaggle en el directorio dspy-arxiv .
Cambie el nombre del archivo a arxiv.json .
Ejecute el cuaderno data.ipynb de arriba a abajo.

Al final, debe tener dos directorios:

DSPY-ARXIV/Base de datos
- arxiv.json : el archivo JSON original con solo la categoría de informática
DSPY-ARXIV/DATASET
- Trainset - 50 archivos JSON con metadatos + texto utilizado para "entrenamiento"
- Valet - 50 archivos JSON con metadatos + texto utilizado para "validación"
- TestSet - 50 archivos JSON con metadatos + texto utilizado para "pruebas"

Si desea agregar RAG a la tubería, es útil tener los datos en una base de datos vectorial para una recuperación rápida. Consulte Database.py para obtener un script de ejemplo para configurar ChromAdB y llenarlo con metadatos ARXIV.

Extracción de características

Las características de cuaderno.ipynb se pueden ver como un tutorial simple sobre cómo usar DSPY para solicitar programáticamente LLM para la extracción de características (en este caso, prediciendo la subcategoría de un documento de informática de ARXIV).

También puede echar un vistazo a las diapositivas generadas a partir de este cuaderno.

Expandir

Información adicional