download dspy arxiv - dspy arxiv download de código fonte

dspy arxiv

Código-Fonte de IA

1.0.0

Baixar

DSPY-ARXIV

Explore o uso do DSPY para extrair recursos de PDFs. Este repositório fornece um exemplo simples de como usar essa estrutura para prever a subcategoria de um artigo de ciência da computação da ARXIV.

Instalação sugerida

Clone este repositório.
Crie um ambiente virtual.
Instale dependências do requisitos.txt .
Instale o ambiente virtual como um kernel Jupyter.

Construir conjunto de dados e banco de dados

O conjunto de dados é uma seleção de 150 artigos ARXIV (metadados + pdf) da categoria de ciência da computação.

Para construir o banco de dados:

Faça o download do arquivo json de Kaggle no diretório dspy-arxiv .
Renomeie o arquivo para arxiv.json .
Execute o notebook data.ipynb de cima para baixo.

No final, você deve ter dois diretórios:

DSPY-ARXIV/BATO
- Arxiv.json - O arquivo JSON original apenas com a categoria de ciência da computação
DSPY-ARXIV/DATASET
- Trainset - 50 arquivos json com metadados + texto usado para "treinamento"
- Valset - 50 arquivos json com metadados + texto usado para "validação"
- TestSet - 50 arquivos JSON com metadados + texto usado para "teste"

Se você deseja adicionar RAG ao pipeline, é útil ter os dados em um banco de dados vetorial para recuperação rápida. Confira o banco de dados.py para obter um script de exemplo para configurar o Chromadb e preencher -o com metadados arxiv.

Apresenta extração

O Notebook Recursos.IPYNB pode ser visto como um tutorial simples sobre como usar o DSPY para solicitar programaticamente LLM para extração de recursos (neste caso, prevendo a subcategoria de um artigo de ciência da computação da ARXIV).

Você também pode dar uma olhada nos slides gerados a partir deste notebook.

Expandir

Informações adicionais