Erforschen Sie die Verwendung von DSPY zum Extrahieren von Merkmalen aus PDFs. Dieses Repository bietet ein einfaches Beispiel für die Verwendung dieses Frameworks, um die Unterkategorie eines Informatikpapiers von ARXIV vorherzusagen.
Der Datensatz ist eine Auswahl von 150 ARXIV -Papieren (Metadaten + PDF) aus der Kategorie Informatik.
So erstellen Sie die Datenbank:
dspy-arxiv Verzeichnis herunter.arxiv.json um.data.ipynb von oben nach unten aus.Am Ende sollten Sie zwei Verzeichnisse haben:
Wenn Sie der Pipeline Lappen hinzufügen möchten, ist es praktisch, die Daten in einer Vektor -Datenbank für schnelles Abrufen zu haben. Schauen Sie sich Database.py an, um ein Beispielskript zu erstellen, um Chromadb einzurichten und mit Arxiv -Metadaten zu füllen.
Das Notebook- Features.IPynb kann als einfaches Tutorial zur programmgesteuerten LLM für die Feature-Extraktion angesehen werden (in diesem Fall die Unterkategorie eines Informatikpapiers von ARXIV).
Sie können sich auch die Folien aus diesem Notebook ansehen.