Compendium Keeper เป็นเครื่องมือที่จัดทำดัชนีข้อมูลบทสรุป (สร้างโดย Compendium Scribe) ลงในฐานข้อมูลเวกเตอร์ (เช่น pinecone) เพื่อการดึงพลังงาน-Augmented Generation (RAG)
.compendium.pickle และ .compendium.xml รูปแบบไฟล์ git clone https://github.com/yourusername/compendiumkeeper.git
cd compendiumkeeperตรวจสอบให้แน่ใจว่าคุณติดตั้ง PDM แล้ว จากนั้นเรียกใช้:
pdm install สร้างไฟล์ .env ในไดเรกทอรีรูทของโครงการเพื่อจัดเก็บคีย์ API และการกำหนดค่าของคุณ คุณสามารถใช้ .env.example เป็นเทมเพลต
.env # .env.example
# OpenAI API Key for generating embeddings
OPENAI_API_KEY = sk-your-openai-api-key
# Pinecone API Key and Environment
PINECONE_API_KEY = your-pinecone-api-key
PINECONE_ENVIRONMENT = us-east-1-aws เปลี่ยนชื่อ .env.example เป็น .env และแทนที่ค่าตัวยึดตำแหน่งด้วยคีย์ API จริงของคุณ
compendium-scribe-create-compendium --domain " Cell Biology " สิ่งนี้สร้างไฟล์เช่น cell_biology_2024-12-05.compendium.pickle และ cell_biology_2024-12-05.compendium.xml
ใช้ตัวเลือก --compendium-file เพื่อระบุไฟล์บทสรุป (ผักดองหรือ XML)
คุณ ต้อง ระบุชื่อดัชนีฐานข้อมูลเวกเตอร์โดยใช้ตัวเลือก --index-name
ตรวจสอบให้แน่ใจว่าไฟล์ .env ของคุณได้รับการกำหนดค่าอย่างถูกต้องด้วยปุ่ม API ที่จำเป็น
pdm run compendium-keeper index --compendium-file cell_biology_2024-12-05.compendium.pickle --index-name my_knowledge_indexpdm run compendium-keeper index --compendium-file cell_biology_2024-12-05.compendium.xml --index-name my_knowledge_indexหลังจากการดำเนินการที่ประสบความสำเร็จคุณควรเห็นข้อความยืนยันที่ระบุจำนวนแนวคิดที่จัดทำดัชนี
Indexed 25 concepts from domain 'Cell Biology' into index 'my_knowledge_index'.
Indexing complete!
ในการสร้างฐานความรู้เดียวที่ครอบคลุมหลายบทสรุปให้ทำซ้ำกระบวนการจัดทำดัชนีสำหรับแต่ละบทสรุปโดยใช้ --index-name เดียวกัน
ตัวอย่างเช่น:
pdm run compendium-keeper index --compendium-file django_2024-12-10.compendium.pickle --index-name all_python_knowledge
pdm run compendium-keeper index --compendium-file flask_2024-12-10.compendium.xml --index-name all_python_knowledgeสิ่งนี้จะรวมความรู้จากหลายบทสรุปไว้ในดัชนีฐานข้อมูลเวกเตอร์เดียวกัน
vector_db/ Directoryutils.py เพื่อปรับแต่งวิธีการสร้างหรือประมวลผล ตั้งค่าตัวแปรสภาพแวดล้อม
สร้างไฟล์ .env ตามที่อธิบายไว้ข้างต้น
สร้างบทสรุป
ใช้บทสรุป Scribe เพื่อสร้างบทสรุปในรูปแบบดองหรือ XML
ดัชนีกับผู้รักษาบทสรุป
เรียกใช้คำสั่งการจัดทำดัชนีเพื่ออัปโหลด EMBEDDING ไปยังฐานข้อมูลเวกเตอร์ที่คุณเลือก
ขาดคีย์ API
ตรวจสอบให้แน่ใจว่าไฟล์ .env ของคุณมีคีย์ API ที่จำเป็นทั้งหมด CLI จะแจ้งให้คุณทราบหากมีสิ่งใดหายไป
DB เวกเตอร์ที่ไม่ได้รับการสนับสนุน
ปัจจุบันรองรับ Pinecone เท่านั้น ในการเพิ่มการสนับสนุนสำหรับฐานข้อมูลเวกเตอร์อื่นให้ใช้คลาสใหม่ใน vector_db/ adhering ไปยังคลาสพื้นฐาน VectorDatabase
ปัญหารูปแบบไฟล์
ตรวจสอบให้แน่ใจว่า --compendium-file ที่คุณให้สิ้นสุดใน .compendium.pickle หรือ .compendium.xml ไม่รองรับไฟล์ที่มีส่วนขยายอื่น ๆ
ขีด จำกัด อัตรา API
ระวังขีด จำกัด อัตรา API ของ Openai เมื่อจัดทำดัชนีบทสรุปขนาดใหญ่ พิจารณาการใช้การแบทช์หรือการ จำกัด อัตราหากจำเป็น
ยินดีต้อนรับ! อย่าลังเลที่จะเปิดปัญหาหรือส่งคำขอดึง
บทสรุปผู้รักษาประตูได้รับการปล่อยตัวภายใต้ใบอนุญาต MIT