dspy arxiv Téléchargement - dspy arxiv Source Code Download

dspy arxiv

Code Source AI

1.0.0

Télécharger

dspy-arxiv

Explorez l'utilisation de DSPY pour extraire les fonctionnalités des PDF. Ce référentiel fournit un exemple simple de la façon d'utiliser ce cadre pour prédire la sous-catégorie d'un document informatique d'ARXIV.

Installation suggérée

Cloner ce référentiel.
Créer un environnement virtuel.
Installez les dépendances à partir des exigences.txt .
Installez l'environnement virtuel en tant que noyau jupyter.

Créer un ensemble de données et une base de données

L' ensemble de données est une sélection de 150 articles ArXIV (métadonnées + PDF) de la catégorie informatique.

Pour construire la base de données:

Téléchargez le fichier JSON de Kaggle dans le répertoire dspy-arxiv .
Renommez le fichier à arxiv.json .
Exécutez le Notebook data.ipynb de haut en bas.

À la fin, vous devriez avoir deux répertoires:

DSPY-ARXIV / DATABASE
- arXiv.json - Le fichier JSON d'origine avec uniquement la catégorie informatique
Dspy-arxiv / ensemble de données
- Trainset - 50 fichiers JSON avec métadonnées + texte utilisé pour "formation"
- Valset - 50 fichiers JSON avec métadonnées + texte utilisé pour "validation"
- TestSet - 50 fichiers JSON avec métadonnées + texte utilisé pour "test"

Si vous souhaitez ajouter un chiffon au pipeline, il est pratique d'avoir les données dans une base de données vectorielle pour une récupération rapide. Consultez Database.py pour un exemple de script pour configurer ChromAdB et remplir les métadonnées ArXIV.

Caractéristiques d'extraction

Le cahier fonctionnalités.ipynb peut être considéré comme un tutoriel simple sur la façon d'utiliser DSPY pour inviter le LLM par programme pour l'extraction des fonctionnalités (dans ce cas, prédisant la sous-catégorie d'un document informatique d'ARXIV).

Vous pouvez également jeter un œil aux diapositives générées à partir de ce cahier.

Développer

Informations supplémentaires