Jelajahi penggunaan DSPY untuk mengekstraksi fitur dari PDF. Repositori ini memberikan contoh sederhana tentang cara menggunakan kerangka kerja ini untuk memprediksi sub-kategori makalah ilmu komputer dari ARXIV.
Dataset adalah pilihan 150 makalah ARXIV (metadata + pdf) dari kategori ilmu komputer.
Untuk membangun database:
dspy-arxiv .arxiv.json .data.ipynb notebook.ipynb dari atas ke bawah.Pada akhirnya, Anda harus memiliki dua direktori:
Jika Anda ingin menambahkan kain ke dalam pipa, berguna untuk memiliki data dalam database vektor untuk pengambilan cepat. Lihat database.py untuk contoh skrip untuk mengatur chromadb dan mengisinya dengan arxiv metadata.
Fitur notebook.ipynb dapat dilihat sebagai tutorial sederhana tentang cara menggunakan DSPY ke LLM yang secara terprogram untuk ekstraksi fitur (dalam hal ini, memprediksi sub-kategori makalah ilmu komputer dari ARXIV).
Anda juga dapat melihat slide yang dihasilkan dari buku catatan ini.