ColberTDB هي قاعدة بيانات مفتوحة المصدر مصممة لاسترجاع المعلومات الفعالة باستخدام Colbert و Plaid. مستوحاة من Ragatouille ، مستوحاة من Ragatouille ، يهدف إلى تبسيط العملية المعقدة لاتصال الوثائق وتضمينها وفهرستها لتطبيقات التوليد المتمثل في الاسترجاع (RAG). ظهر هذا المشروع من التحسينات الهامة التي لوحظت عند التحول من قاعدة بيانات المتجه التقليدية إلى فهرس مقرها كولبيرت.
الدافع وراء Colbertdb هو ثلاثة أضعاف:
استرجاع المعلومات الأكثر صلة: التحول من قاعدة بيانات متجه إلى فهرس مقرها كولبير قد أسفر عن تحسينات كبيرة في استرجاع المعلومات للمشروع. وقد أبرز ذلك الفوائد المحتملة للفهرسة القائمة على كولبير على الطرق التقليدية.
الواجهة الصديقة للمطورين: يمكن أن يكون إعداد وثائق التضمين والفهرسة أمرًا صعبًا ومعرضًا للخطأ. يوفر ColberTDB واجهة بسيطة مع افتراضات ذكية ، مما يسهل على المطورين دمج إمكانات استرجاع المعلومات القوية في تطبيقاتهم.
انخفاض الاعتماد على مزودي النماذج الخارجية: امتلاك نموذج التضمين لا يعني أي اعتماد على واجهات برمجة تطبيقات التضمين الخارجية والقدرة على ضبط النموذج الأساسي إلى مجالك المحدد لتحسين صلة الاسترجاع.
تستخدم صورة Docker صورة قاعدة CUDA وستستخدم وحدات معالجة الرسومات إذا كان ذلك متاحًا. يوصى بتشغيل ColberTDB على الأجهزة مع وحدات معالجة الرسومات حيث أن مستندات الفهرسة بطيئة بشكل بطيء باستخدام وحدات المعالجة المركزية. ستحتاج إلى تشغيل Docker (https://www.docker.com/products/docker-desktop/) للبدء محليًا.
docker build . -t colbertdb:latest
docker run colbertdb:latestأو
docker compose up --build