dspy arxiv DOWNLOAD - dspy arxiv Quellcode Download

dspy arxiv

AI-Quellcode

1.0.0

Herunterladen

DSPY-ARXIV

Erforschen Sie die Verwendung von DSPY zum Extrahieren von Merkmalen aus PDFs. Dieses Repository bietet ein einfaches Beispiel für die Verwendung dieses Frameworks, um die Unterkategorie eines Informatikpapiers von ARXIV vorherzusagen.

Vorgeschlagene Installation

Klonen Sie dieses Repository.
Erstellen Sie eine virtuelle Umgebung.
Installieren Sie Abhängigkeiten von Anforderungen.txt .
Installieren Sie die virtuelle Umgebung als Jupyter -Kernel.

Erstellen Sie Datensatz und Datenbank

Der Datensatz ist eine Auswahl von 150 ARXIV -Papieren (Metadaten + PDF) aus der Kategorie Informatik.

So erstellen Sie die Datenbank:

Laden Sie die JSON-Datei von Kaggle in das dspy-arxiv Verzeichnis herunter.
Benennen Sie die Datei in arxiv.json um.
Führen Sie die Notebook data.ipynb von oben nach unten aus.

Am Ende sollten Sie zwei Verzeichnisse haben:

DSPY-ARXIV/Datenbank
- Arxiv.json - Die ursprüngliche JSON -Datei mit nur der Kategorie Informatik
DSPY-ARXIV/DATASET
- Trainset - 50 JSON -Dateien mit Metadaten + Text für "Training" verwendet.
- ValSet - 50 JSON -Dateien mit Metadaten + Text, die zur "Validierung" verwendet werden
- Testset - 50 JSON -Dateien mit Metadaten + Text zum "Testen" verwendet.

Wenn Sie der Pipeline Lappen hinzufügen möchten, ist es praktisch, die Daten in einer Vektor -Datenbank für schnelles Abrufen zu haben. Schauen Sie sich Database.py an, um ein Beispielskript zu erstellen, um Chromadb einzurichten und mit Arxiv -Metadaten zu füllen.

Features Extraktion

Das Notebook- Features.IPynb kann als einfaches Tutorial zur programmgesteuerten LLM für die Feature-Extraktion angesehen werden (in diesem Fall die Unterkategorie eines Informatikpapiers von ARXIV).

Sie können sich auch die Folien aus diesem Notebook ansehen.

Expandieren

Zusätzliche Informationen