O VBEnch é uma referência para avaliar as questões analíticas vetoriais com base na interface SQL. O VBEnch usa o conjunto de dados Recipe1M aumentado com atributos escalares e fornece um conjunto abrangente de questões analíticas vetoriais que utilizam operadores SQL padrão, incluindo junção, grupo, filtro e topk.
Neste repo, fornecemos instruções sobre
O conjunto de dados VBEnch consiste em duas tabelas: tabela de receitas e tabela de tags.
| Nome da coluna | Tipo de dados | Exemplo | Notas |
|---|---|---|---|
| Recipe_id | Identificador | 1 | chave primária |
| imagens | Lista de string | ['Dados/imagens/1/0.jpg', ...] | Caminhos de imagens |
| descrição | Texto | [Ingredientes] + [Instrução] | vetor esparso |
| Images_embedding | Vetor | [-0.0421, 0,0296, ..., 0,0273] | vetor denso, 1024 dimensões |
| Descrição_embedding | Vetor | [0,0056, -0,0487, ..., 0,0034] | Vect denso, 1024 dimensões |
| preço | Inteiro | 18 | Preço do prato |
| Nome da coluna | Tipo de dados | Exemplo | Notas |
|---|---|---|---|
| eu ia | Identificador | 1 | chave primária |
| tag_name | Texto | "salada" | nome da tag |
| tag_vector | Vetor | [-0.0137, 0,0421, ..., 0,0183] | Incorporação ou vetor de peso, 1024 dimensões |
Consulte o dataset_generation/README.md para obter informações detalhadas sobre como gerar essas duas tabelas.
O Vbench possui 12 consultas, que podem ser divididas em quatro categorias:
quereis.sql para obter detalhes. Consulte a evaluation/README.md para obter informações detalhadas sobre como avaliar diferentes mecanismos de pesquisa vetorial.
Toda a base de código está sob licença do MIT.