Compendium Keeper هي أداة تفهست بيانات compendium (التي تم إنشاؤها بواسطة كاتب compendium) في قاعدة بيانات متجه (مثل pinecone) لسير عمل الجيل المتمثل في استرجاع الطاقة (RAG).
.compendium.pickle و .compendium.xml تنسيقات. git clone https://github.com/yourusername/compendiumkeeper.git
cd compendiumkeeperتأكد من تثبيت PDM. ثم قم بالتشغيل:
pdm install قم بإنشاء ملف .env في الدليل الجذر للمشروع لتخزين مفاتيح API والتكوين. يمكنك استخدام .env.example كقالب.
.env # .env.example
# OpenAI API Key for generating embeddings
OPENAI_API_KEY = sk-your-openai-api-key
# Pinecone API Key and Environment
PINECONE_API_KEY = your-pinecone-api-key
PINECONE_ENVIRONMENT = us-east-1-aws إعادة تسمية .env.example إلى .env واستبدل قيم العنصر النائب بمفاتيح API الفعلية.
compendium-scribe-create-compendium --domain " Cell Biology " هذا ينتج ملفات مثل cell_biology_2024-12-05.compendium.pickle و cell_biology_2024-12-05.compendium.xml .
استخدم خيار --compendium-file لتحديد ملف compendium (Pickle أو XML).
يجب عليك أيضًا تحديد اسم فهرس قاعدة بيانات المتجه باستخدام خيار --index-name .
تأكد من تكوين ملف .env بشكل صحيح مع مفاتيح API الضرورية.
pdm run compendium-keeper index --compendium-file cell_biology_2024-12-05.compendium.pickle --index-name my_knowledge_indexpdm run compendium-keeper index --compendium-file cell_biology_2024-12-05.compendium.xml --index-name my_knowledge_indexبعد التنفيذ الناجح ، يجب أن ترى رسالة تأكيد تشير إلى عدد المفاهيم المفهرسة.
Indexed 25 concepts from domain 'Cell Biology' into index 'my_knowledge_index'.
Indexing complete!
لإنشاء قاعدة معرفة واحدة تمتد على مجموعة متعددة ، كرر عملية الفهرسة لكل مجموعة ، باستخدام نفس --index-name .
على سبيل المثال:
pdm run compendium-keeper index --compendium-file django_2024-12-10.compendium.pickle --index-name all_python_knowledge
pdm run compendium-keeper index --compendium-file flask_2024-12-10.compendium.xml --index-name all_python_knowledgeسيؤدي ذلك إلى دمج المعرفة من مجموعة متعددة في فهرس قاعدة بيانات المتجه نفسه.
vector_db/ Directory.utils.py لتخصيص كيفية توليد أو معالجة التضمينات. إعداد متغيرات البيئة
إنشاء ملف .env كما هو موضح أعلاه.
توليد خلاصة
استخدم كاتب compendium لإنشاء مجموعة بتنسيق المخلل أو XML.
فهرس مع حارس المركز
قم بتشغيل أمر الفهرسة لتحميل التضمينات إلى قاعدة بيانات المتجه المختار.
مفاتيح واجهة برمجة التطبيقات المفقودة
تأكد من أن ملف .env الخاص بك يحتوي على جميع مفاتيح API المطلوبة. سوف يعلمك CLI إذا كان هناك أي شيء مفقود.
ناقلات غير مدعومة ديسيبل
حاليًا ، يتم دعم Pinecone فقط. لإضافة دعم لقاعدة بيانات ناقلات أخرى ، قم بتنفيذ فئة جديدة في vector_db/ الالتزام بفئة قاعدة VectorDatabase التجريدية.
مشكلات تنسيق الملف
تأكد من أن --compendium-file الذي توفره في إما .compendium.pickle أو .compendium.xml . لا يتم دعم الملفات ذات الامتدادات الأخرى.
حدود معدل API
كن على دراية بحدود معدل API في Openai عند فهرسة Compendia الكبيرة. النظر في تنفيذ التجميع أو الحد من معدل إذا لزم الأمر.
المساهمات مرحب بها! لا تتردد في فتح مشكلة أو تقديم طلب سحب.
يتم إصدار Compendium Keeper بموجب ترخيص MIT.