VBench
1.0.0
vbench는 SQL 인터페이스를 기반으로 벡터 분석 쿼리를 평가하기위한 벤치 마크입니다. vbench는 스칼라 속성으로 보강 된 레시피 1m 데이터 세트를 사용하며, 조인, Groupby, 필터 및 TOPK를 포함한 표준 SQL 연산자를 사용하는 포괄적 인 벡터 분석 쿼리 세트를 제공합니다.
이 저장소에서는 지침을 제공합니다
vbench 데이터 세트는 레시피 테이블과 태그 테이블의 두 테이블로 구성됩니다.
| 열 이름 | 데이터 유형 | 예 | 메모 |
|---|---|---|---|
| 레시피 _id | 식별자 | 1 | 기본 키 |
| 이미지 | 문자열 목록 | [ '데이터/이미지/1/0.jpg', ...] | 이미지의 경로 |
| 설명 | 텍스트 | [성분] + [교육] | 드문 벡터 |
| images_embedding | 벡터 | [-0.0421, 0.0296, ..., 0.0273] | 밀도가 높은 벡터, 1024 치수 |
| description_embedding | 벡터 | [0.0056, -0.0487, ..., 0.0034] | 밀도가 높은 벡터, 1024 치수 |
| 가격 | 정수 | 18 | 접시의 가격 |
| 열 이름 | 데이터 유형 | 예 | 메모 |
|---|---|---|---|
| ID | 식별자 | 1 | 기본 키 |
| tag_name | 텍스트 | "샐러드" | 태그의 이름 |
| tag_vector | 벡터 | [-0.0137, 0.0421, ..., 0.0183] | 임베딩 또는 중량 벡터, 1024 치수 |
이 두 테이블을 생성하는 방법에 대한 세부 정보는 dataset_generation/README.md 를 참조하십시오.
vbench에는 12 쿼리가 있으며 4 가지 범주로 나눌 수 있습니다.
quereis.sql 참조하십시오. 다른 벡터 검색 엔진을 평가하는 방법에 대한 세부 정보는 evaluation/README.md 를 참조하십시오.
전체 코드베이스는 MIT 라이센스 아래에 있습니다.