Kompendium Keeper adalah alat yang mengindeks data ringkasan (dihasilkan oleh Compendium Scribe) ke dalam basis data vektor (seperti Pinecone) untuk alur kerja Power Retrieval-Agusted Generation (RAG).
.compendium.pickle dan .compendium.xml . git clone https://github.com/yourusername/compendiumkeeper.git
cd compendiumkeeperPastikan Anda menginstal PDM. Kemudian jalankan:
pdm install Buat file .env di direktori root proyek untuk menyimpan kunci dan konfigurasi API Anda. Anda dapat menggunakan .env.example yang disediakan sebagai templat.
.env # .env.example
# OpenAI API Key for generating embeddings
OPENAI_API_KEY = sk-your-openai-api-key
# Pinecone API Key and Environment
PINECONE_API_KEY = your-pinecone-api-key
PINECONE_ENVIRONMENT = us-east-1-aws Ganti nama .env.example menjadi .env dan ganti nilai placeholder dengan kunci API Anda yang sebenarnya.
compendium-scribe-create-compendium --domain " Cell Biology " Ini menghasilkan file seperti cell_biology_2024-12-05.compendium.pickle dan cell_biology_2024-12-05.compendium.xml .
Gunakan opsi --compendium-file untuk menentukan file ringkasan (acar atau xml).
Anda juga harus menentukan nama indeks basis data vektor menggunakan opsi --index-name .
Pastikan file .env Anda dikonfigurasi dengan benar dengan tombol API yang diperlukan.
pdm run compendium-keeper index --compendium-file cell_biology_2024-12-05.compendium.pickle --index-name my_knowledge_indexpdm run compendium-keeper index --compendium-file cell_biology_2024-12-05.compendium.xml --index-name my_knowledge_indexSetelah eksekusi yang berhasil, Anda akan melihat pesan konfirmasi yang menunjukkan jumlah konsep yang diindeks.
Indexed 25 concepts from domain 'Cell Biology' into index 'my_knowledge_index'.
Indexing complete!
Untuk membuat basis pengetahuan tunggal yang mencakup beberapa ringkasan, ulangi proses pengindeksan untuk setiap ringkasan, menggunakan --index-name .
Misalnya:
pdm run compendium-keeper index --compendium-file django_2024-12-10.compendium.pickle --index-name all_python_knowledge
pdm run compendium-keeper index --compendium-file flask_2024-12-10.compendium.xml --index-name all_python_knowledgeIni akan menggabungkan pengetahuan dari beberapa ringkasan ke dalam indeks database vektor yang sama.
vector_db/ direktori.utils.py untuk menyesuaikan bagaimana embeddings dihasilkan atau diproses. Mengatur variabel lingkungan
Buat file .env seperti dijelaskan di atas.
Menghasilkan ringkasan
Gunakan Compendium Scribe untuk menghasilkan ringkasan dalam format acar atau xml.
Indeks dengan penjaga ringkasan
Jalankan perintah pengindeksan untuk mengunggah embeddings ke database vektor yang Anda pilih.
Kunci API yang hilang
Pastikan file .env Anda berisi semua tombol API yang diperlukan. CLI akan memberi tahu Anda jika ada yang hilang.
DB vektor yang tidak didukung
Saat ini, hanya pinus yang didukung. Untuk menambahkan dukungan untuk database vektor lain, terapkan kelas baru di vector_db/ menempel pada kelas dasar abstrak VectorDatabase .
Masalah format file
Pastikan- --compendium-file yang Anda berikan di ujung. .compendium.pickle atau .compendium.xml . File dengan ekstensi lain tidak didukung.
Batas tingkat API
Berhati -hatilah dengan batas tingkat API Openai saat mengindeks ringkasan besar. Pertimbangkan menerapkan batching atau pembatasan tingkat jika perlu.
Kontribusi dipersilakan! Jangan ragu untuk membuka masalah atau mengirimkan permintaan tarik.
Kompendium Keeper dirilis di bawah lisensi MIT.