dspy arxiv Скачать - dspy arxiv Sourced Code скачать

dspy arxiv

AI Исходный код

1.0.0

Скачать

Dspy-Arxiv

Исследуйте использование DSPY для извлечения функций из PDFS. Этот репозиторий дает простой пример того, как использовать эту структуру для прогнозирования подкатегории документа по информатике от Arxiv.

Предлагаемая установка

Клонировать это хранилище.
Создайте виртуальную среду.
Установите зависимости от требований.txt .
Установите виртуальную среду как ядро Юпитера.

Создание набора данных и базы данных

Набор данных представляет собой выбор 150 работ ARXIV (метаданные + PDF) из категории информатики.

Чтобы построить базу данных:

Загрузите файл JSON из Kaggle в каталог dspy-arxiv .
Переименовать файл в arxiv.json .
Запустите ноутбук data.ipynb сверху вниз.

В конце у вас должно быть два каталога:

DSPY-ARXIV/База данных
- arxiv.json - оригинальный файл json только с категорией информатики
DSPY-ARXIV/DATASET
- Trainset - 50 файлов JSON с метаданными + текстом, используемым для «обучения»
- Valset - 50 файлов JSON с метаданными + текстом, используемым для "проверки"
- Testset - 50 файлов JSON с метаданными + текстом, используемым для «тестирования»

Если вы хотите добавить тряпку в трубопровод, удобно иметь данные в векторной базе данных для быстрого поиска. Проверьте Database.py для примера скрипта для настройки ChromADB и заполнить его метаданными ARXIV.

Особенности извлечения

Особенности ноутбука. IPYNB можно рассматривать как простой учебник по использованию DSPY для программного приглашения LLM для извлечения функций (в данном случае, прогнозируя подкатегорию бумаги компьютерных наук из ARXIV).

Вы также можете взглянуть на слайды, сгенерированные из этой записной книжки.

Расширять

Дополнительная информация