VBench adalah tolok ukur untuk mengevaluasi vektor analitik-kueri berdasarkan antarmuka SQL. VBench menggunakan Dataset Recipe1m yang ditambah dengan atribut skalar, dan menyediakan serangkaian komprehensif vektor analitik-kueri yang memanfaatkan operator SQL standar, termasuk gabungan, groupby, filter dan topk.
Dalam repo ini, kami memberikan instruksi tentang
Dataset VBench terdiri dari dua tabel: Tabel resep dan tag tabel.
| Nama kolom | Tipe data | Contoh | Catatan |
|---|---|---|---|
| recipe_id | Pengidentifikasi | 1 | kunci utama |
| gambar | Daftar string | ['data/gambar/1/0.jpg', ...] | jalur gambar |
| keterangan | Teks | [Bahan] + [instruksi] | Vektor jarang |
| gambar_embedding | Vektor | [-0.0421, 0,0296, ..., 0,0273] | vektor padat, 1024 dimensi |
| description_embedding | Vektor | [0,0056, -0,0487, ..., 0,0034] | vect padat, 1024 dimensi |
| harga | Bilangan bulat | 18 | Harga hidangan |
| Nama kolom | Tipe data | Contoh | Catatan |
|---|---|---|---|
| pengenal | Pengidentifikasi | 1 | kunci utama |
| tag_name | Teks | "salad" | nama tag |
| tag_vector | Vektor | [-0.0137, 0,0421, ..., 0,0183] | vektor embedding atau berat, 1024 dimensi |
Silakan merujuk ke dataset_generation/README.md untuk detail Insructions tentang cara menghasilkan dua tabel ini.
VBench memiliki 12 pertanyaan, yang dapat dibagi menjadi empat kategori:
quereis.sql untuk detail. Silakan lihat evaluation/README.md untuk detail instructions tentang cara mengevaluasi berbagai mesin pencari vektor.
Seluruh basis kode berada di bawah lisensi MIT.