Исследуйте использование DSPY для извлечения функций из PDFS. Этот репозиторий дает простой пример того, как использовать эту структуру для прогнозирования подкатегории документа по информатике от Arxiv.
Набор данных представляет собой выбор 150 работ ARXIV (метаданные + PDF) из категории информатики.
Чтобы построить базу данных:
dspy-arxiv .arxiv.json .data.ipynb сверху вниз.В конце у вас должно быть два каталога:
Если вы хотите добавить тряпку в трубопровод, удобно иметь данные в векторной базе данных для быстрого поиска. Проверьте Database.py для примера скрипта для настройки ChromADB и заполнить его метаданными ARXIV.
Особенности ноутбука. IPYNB можно рассматривать как простой учебник по использованию DSPY для программного приглашения LLM для извлечения функций (в данном случае, прогнозируя подкатегорию бумаги компьютерных наук из ARXIV).
Вы также можете взглянуть на слайды, сгенерированные из этой записной книжки.