Colbertdb est une base de données open source conçue pour une récupération efficace des informations à l'aide de Colbert et Plaid. Inspirée par et fortement provenant de Ragatouille, Colbertdb vise à simplifier le processus complexe de section de document, d'incorporation et d'indexation pour les applications de génération (RAG) (RAG) de la récupération. Ce projet est sorti des améliorations significatives observées lors du passage d'une base de données vectorielle traditionnelle à un indice basé sur Colbert.
La motivation derrière Colbertdb est triple:
Récupération d'informations plus pertinente: Le passage d'une base de données vectorielle à un indice basé à Colbert a donné des améliorations significatives de la récupération d'informations pour un projet. Cela a mis en évidence les avantages potentiels de l'indexation basée sur Colbert sur les méthodes traditionnelles.
Interface conviviale des développeurs: la configuration de la cire, de l'intégration et de l'indexation des documents peut être difficile et sujet aux erreurs. Colbertdb fournit une interface simple avec des défauts de défaut intelligents, ce qui permet aux développeurs d'intégrer plus facilement les capacités de récupération d'informations dans leurs applications.
Réduction de la dépendance à l'égard des fournisseurs de modèles externes: la possession du modèle d'incorporation signifie aucune dépendance à l'égard des API d'intégration externe et la possibilité d'affiner le modèle sous-jacent à votre domaine spécifique pour une pertinence de récupération encore meilleure.
L'image Docker utilise une image de base CUDA et utilisera des GPU si disponibles. Il est recommandé d'exécuter Colbertdb sur du matériel avec des GPU car les documents d'indexation sont prohibitifs à l'aide de processeurs. Vous aurez besoin de Docker Running (https://www.docker.com/products/docker-desktop/) pour commencer localement.
docker build . -t colbertdb:latest
docker run colbertdb:latestou
docker compose up --build