Explore el uso de DSPY para extraer características de PDFS. Este repositorio proporciona un ejemplo simple de cómo usar este marco para predecir la subcategoría de un documento de informática de ARXIV.
El conjunto de datos es una selección de 150 documentos ARXIV (metadatos + PDF) de la categoría de informática.
Para construir la base de datos:
dspy-arxiv .arxiv.json .data.ipynb de arriba a abajo.Al final, debe tener dos directorios:
Si desea agregar RAG a la tubería, es útil tener los datos en una base de datos vectorial para una recuperación rápida. Consulte Database.py para obtener un script de ejemplo para configurar ChromAdB y llenarlo con metadatos ARXIV.
Las características de cuaderno.ipynb se pueden ver como un tutorial simple sobre cómo usar DSPY para solicitar programáticamente LLM para la extracción de características (en este caso, prediciendo la subcategoría de un documento de informática de ARXIV).
También puede echar un vistazo a las diapositivas generadas a partir de este cuaderno.