Explore o uso do DSPY para extrair recursos de PDFs. Este repositório fornece um exemplo simples de como usar essa estrutura para prever a subcategoria de um artigo de ciência da computação da ARXIV.
O conjunto de dados é uma seleção de 150 artigos ARXIV (metadados + pdf) da categoria de ciência da computação.
Para construir o banco de dados:
dspy-arxiv .arxiv.json .data.ipynb de cima para baixo.No final, você deve ter dois diretórios:
Se você deseja adicionar RAG ao pipeline, é útil ter os dados em um banco de dados vetorial para recuperação rápida. Confira o banco de dados.py para obter um script de exemplo para configurar o Chromadb e preencher -o com metadados arxiv.
O Notebook Recursos.IPYNB pode ser visto como um tutorial simples sobre como usar o DSPY para solicitar programaticamente LLM para extração de recursos (neste caso, prevendo a subcategoria de um artigo de ciência da computação da ARXIV).
Você também pode dar uma olhada nos slides gerados a partir deste notebook.