ColberTDB는 Colbert 및 Plaid를 사용하여 효율적인 정보 검색을 위해 설계된 오픈 소스 데이터베이스입니다. Ragatouille에서 영감을 얻은 Colbertdb는 검색 된 생성 (RAG) 응용 프로그램을위한 복잡한 문서 청킹, 임베딩 및 인덱싱의 복잡한 프로세스를 단순화하는 것을 목표로합니다. 이 프로젝트는 기존 벡터 데이터베이스에서 Colbert 기반 색인으로 전환 할 때 관찰 된 상당한 개선 사항에서 나왔습니다.
Colbertdb의 동기 부여는 세 가지입니다.
보다 관련성이 높은 정보 검색 : 벡터 데이터베이스에서 Colbert 기반 색인으로 전환하면 프로젝트의 정보 검색이 크게 향상되었습니다. 이것은 전통적인 방법에 대한 콜버트 기반 색인의 잠재적 이점을 강조했습니다.
개발자 친화적 인 인터페이스 : 문서 청킹, 임베딩 및 인덱싱 설정은 도전적이고 오류가 발생할 수 있습니다. ColberTDB는 지능형 기본값과 간단한 인터페이스를 제공하므로 개발자가 강력한 정보 검색 기능을 응용 프로그램에 쉽게 통합 할 수 있습니다.
외부 모델 제공 업체에 대한 의존성 감소 : 임베딩 모델을 소유한다는 것은 외부 임베딩 API에 의존하지 않으며 더 나은 검색 관련성을 위해 기본 모델을 특정 도메인에 미세 조정하는 능력을 의미합니다.
Docker Image는 Cuda 기본 이미지를 사용하며 가능한 경우 GPU를 사용합니다. 인덱싱 문서가 CPU를 사용하여 엄청나게 느리기 때문에 GPU가있는 하드웨어에서 ColberTDB를 실행하는 것이 좋습니다. 현지에서 시작하려면 Docker Running (https://www.docker.com/products/docker-desktop/)이 필요합니다.
docker build . -t colbertdb:latest
docker run colbertdb:latest또는
docker compose up --build