ColbertDB adalah basis data sumber terbuka yang dirancang untuk pengambilan informasi yang efisien menggunakan Colbert dan Plaid. Terinspirasi oleh dan bersumber dari Ragatouille, Colbertdb bertujuan untuk menyederhanakan proses kompleks chunking, penyematan, dan pengindeksan untuk aplikasi generasi pengambilan (RAG). Proyek ini muncul dari perbaikan signifikan yang diamati ketika beralih dari database vektor tradisional ke indeks berbasis Colbert.
Motivasi di balik colbertdb adalah tiga kali lipat:
Pengambilan informasi yang lebih relevan: beralih dari database vektor ke indeks berbasis Colbert menghasilkan peningkatan yang signifikan dalam pengambilan informasi untuk suatu proyek. Ini menyoroti potensi manfaat pengindeksan berbasis Colbert dibandingkan metode tradisional.
Antarmuka yang ramah pengembang: Menyiapkan dokumen chunking, embedding, dan pengindeksan dapat menjadi tantangan dan rawan kesalahan. ColbertDB menyediakan antarmuka sederhana dengan default cerdas, memudahkan pengembang untuk mengintegrasikan kemampuan pengambilan informasi yang kuat ke dalam aplikasi mereka.
Mengurangi ketergantungan pada penyedia model eksternal: memiliki model embedding berarti tidak ada ketergantungan pada API embedding eksternal dan kemampuan untuk menyempurnakan model yang mendasari domain spesifik Anda untuk relevansi pengambilan yang lebih baik.
Gambar Docker menggunakan gambar dasar CUDA dan akan memanfaatkan GPU jika tersedia. Disarankan untuk menjalankan ColbertDB pada perangkat keras dengan GPU karena dokumen pengindeksan sangat lambat menggunakan CPU. Anda akan membutuhkan Docker Running (https://www.docker.com/products/docker-desktop/) untuk memulai secara lokal.
docker build . -t colbertdb:latest
docker run colbertdb:latestatau
docker compose up --build