ColbertDB เป็นฐานข้อมูลโอเพนซอร์ซที่ออกแบบมาสำหรับการดึงข้อมูลที่มีประสิทธิภาพโดยใช้ Colbert และ Plaid ได้รับแรงบันดาลใจจากและแหล่งที่มาอย่างหนักจาก Ragatouille, ColbertDB มีจุดมุ่งหมายเพื่อลดความซับซ้อนของกระบวนการที่ซับซ้อนของการถ่ายเอกสารการฝังและการจัดทำดัชนีสำหรับแอพพลิเคชั่นการเรียกคืน (RAG) โครงการนี้เกิดขึ้นจากการปรับปรุงที่สำคัญที่สังเกตได้เมื่อเปลี่ยนจากฐานข้อมูลเวกเตอร์แบบดั้งเดิมไปเป็นดัชนีที่ใช้ Colbert
แรงจูงใจเบื้องหลัง ColbertDB คือสามเท่า:
การดึงข้อมูลที่เกี่ยวข้องมากขึ้น: การเปลี่ยนจากฐานข้อมูลเวกเตอร์เป็นดัชนีที่ใช้ Colbert ให้การปรับปรุงที่สำคัญในการดึงข้อมูลสำหรับโครงการ สิ่งนี้เน้นถึงประโยชน์ที่อาจเกิดขึ้นจากการจัดทำดัชนีตาม Colbert ด้วยวิธีการดั้งเดิม
อินเทอร์เฟซที่เป็นมิตรกับนักพัฒนา: การตั้งค่าการถ่ายเอกสารการฝังและการจัดทำดัชนีอาจเป็นเรื่องที่ท้าทายและผิดพลาดได้ง่าย ColbertDB ให้อินเทอร์เฟซอย่างง่ายพร้อมค่าเริ่มต้นอัจฉริยะทำให้นักพัฒนาซอฟต์แวร์สามารถรวมความสามารถในการดึงข้อมูลที่มีประสิทธิภาพเข้ากับแอปพลิเคชันของพวกเขาได้ง่ายขึ้น
ลดการพึ่งพาผู้ให้บริการโมเดลภายนอก: การเป็นเจ้าของโมเดลการฝังหมายความว่าไม่มีการพึ่งพา APIs การฝังภายนอกและความสามารถในการปรับแต่งโมเดลพื้นฐานให้กับโดเมนเฉพาะของคุณเพื่อความเกี่ยวข้องในการดึงข้อมูลที่ดียิ่งขึ้น
อิมเมจนักเทียบท่าใช้ภาพฐาน CUDA และจะใช้ GPU ถ้ามี ขอแนะนำให้เรียกใช้ ColbertDB บนฮาร์ดแวร์ด้วย GPU เนื่องจากเอกสารการจัดทำดัชนีช้าโดยใช้ CPU คุณจะต้องใช้ Docker Running (https://www.docker.com/products/docker-desktop/) เพื่อเริ่มต้นในพื้นที่
docker build . -t colbertdb:latest
docker run colbertdb:latestหรือ
docker compose up --build