Explorez l'utilisation de DSPY pour extraire les fonctionnalités des PDF. Ce référentiel fournit un exemple simple de la façon d'utiliser ce cadre pour prédire la sous-catégorie d'un document informatique d'ARXIV.
L' ensemble de données est une sélection de 150 articles ArXIV (métadonnées + PDF) de la catégorie informatique.
Pour construire la base de données:
dspy-arxiv .arxiv.json .data.ipynb de haut en bas.À la fin, vous devriez avoir deux répertoires:
Si vous souhaitez ajouter un chiffon au pipeline, il est pratique d'avoir les données dans une base de données vectorielle pour une récupération rapide. Consultez Database.py pour un exemple de script pour configurer ChromAdB et remplir les métadonnées ArXIV.
Le cahier fonctionnalités.ipynb peut être considéré comme un tutoriel simple sur la façon d'utiliser DSPY pour inviter le LLM par programme pour l'extraction des fonctionnalités (dans ce cas, prédisant la sous-catégorie d'un document informatique d'ARXIV).
Vous pouvez également jeter un œil aux diapositives générées à partir de ce cahier.