VBench ist ein Benchmark für die Bewertung der Vektoranalyse-Querien basierend auf der SQL-Schnittstelle. VBench verwendet Rezept1M-Datensatz, das mit skalaren Attributen erweitert wird, und bietet einen umfassenden Satz von Vektoranalyse-Zahlen, die Standard-SQL-Operatoren verwenden, einschließlich Join, Groupby, Filter und TOPK.
In diesem Repo geben wir Anweisungen zu
Der VBench -Datensatz besteht aus zwei Tabellen: Rezepttabelle und Tag -Tabelle.
| Spaltenname | Datentyp | Beispiel | Notizen |
|---|---|---|---|
| rezept_id | Kennung | 1 | Primärschlüssel |
| Bilder | Liste der Zeichenfolge | ['Data/Images/1/0.JPG', ...] | Wege der Bilder |
| Beschreibung | Text | [Zutaten] + [Anweisung] | spärlicher Vektor |
| Images_embedding | Vektor | [-0.0421, 0,0296, ..., 0,0273] | dichter Vektor, 1024 Dimensionen |
| Beschreibung_embedding | Vektor | [0,0056, -0.0487, ..., 0,0034] | Dichtes Vect, 1024 Dimensionen |
| Preis | Ganze Zahl | 18 | Preispreis |
| Spaltenname | Datentyp | Beispiel | Notizen |
|---|---|---|---|
| Ausweis | Kennung | 1 | Primärschlüssel |
| Tag_Name | Text | "Salat" | Name des Tags |
| Tag_Vector | Vektor | [-0.0137, 0,0421, ..., 0,0183] | Einbettung oder Gewichtsvektor, 1024 Abmessungen |
Weitere Informationen zum Generieren dieser beiden Tabellen finden Sie unter dataset_generation/README.md .
VBench hat 12 Abfragen, die in vier Kategorien unterteilt werden können:
quereis.sql . Weitere Informationen zur Bewertung verschiedener Vektor -Suchmaschinen finden Sie unter evaluation/README.md .
Die gesamte Codebasis steht unter MIT -Lizenz.