VBENCH является эталоном для оценки векторных аналитических кверов на основе интерфейса SQL. Vbench использует набор данных рецепта1M, дополненный скалярными атрибутами, и предоставляет комплексный набор векторных аналитических кводов, в которых используются стандартные операторы SQL, включая Join, Groupby, Filter и Topk.
В этом репо мы даем инструкции по
Набор данных Vbench состоит из двух таблиц: таблица рецептов и таблицы тегов.
| Название столбца | Тип данных | Пример | Примечания |
|---|---|---|---|
| recipe_id | Идентификатор | 1 | Первичный ключ |
| изображения | Список строки | ['Data/Images/1/0.jpg', ...] | Пути изображений |
| описание | Текст | [ингредиенты] + [Инструкция] | редкий вектор |
| Images_embedding | Вектор | [-0,0421, 0,0296, ..., 0,0273] | плотный вектор, 1024 измерения |
| description_embedding | Вектор | [0,0056, -0,0487, ..., 0,0034] | плотный век, 1024 измерения |
| цена | Целое число | 18 | цена на блюдо |
| Название столбца | Тип данных | Пример | Примечания |
|---|---|---|---|
| идентификатор | Идентификатор | 1 | Первичный ключ |
| tag_name | Текст | "салат" | Имя тега |
| tag_vector | Вектор | [-0,0137, 0,0421, ..., 0,0183] | Встроенный или вес -вектор, 1024 измерения |
Пожалуйста, обратитесь к dataset_generation/README.md для получения подробной информации о том, как генерировать эти две таблицы.
Vbench имеет 12 запросов, которые можно разделить на четыре категории:
quereis.sql для получения подробной информации. Пожалуйста, обратитесь к evaluation/README.md для получения подробной информации о том, как оценить различные поисковые системы вектора.
Вся кодовая база находится под лицензией MIT.