lancedb study Download - lancedb study Source Code Download

lancedb study

Anderer Quellcode

1.0.0

Herunterladen

LancyB Benchmark: Volltext- und Vektor-Suchleistung

Code für die in diesem Blog -Beitrag beschriebene Benchmark -Studie.

LancyB ist eine Open Source-, eingebettete und Entwickler-freundliche Vektor-Datenbank. Einige wichtige Funktionen über LancyB, die es äußerst wertvoll machen, sind unten aufgeführt, unter anderem in ihrem Github -Repo.

Unglaublich leichtes Gewicht (keine DB-Server zu verwalten), da es mit der Anwendung vollständig in Bearbeitung ausgeführt wird
Extrem skalierbar von der Entwicklung bis zur Produktion
Fähigkeit zur Durchführung der Volltext-Suche (FTS), der SQL-Suche (über DataFusion) und Ann Vector-Suche
Support für Multimodaldaten (Bilder, Text, Video, Audio, Punktwolken usw.)
Zero-Copy (über Pfeil) mit automatischer Versionierung von Daten im nativen Lance-Speicherformat

Ziel dieses Repo ist es, die Volltext- und Vektor-Suchfunktionen von LancyB über einen End-to-End-Benchmark zu demonstrieren, in dem wir die Ergebnisse und den Durchsatz sorgfältig untersuchen.

Datensatz

Der für diese Demo verwendete Datensatz ist der Datensatz von Wine Reviews von Kaggle, der ~ 130.000 Bewertungen zu Weinen zusammen mit anderen Metadaten enthält. Der Datensatz wird in ein ZIP -Archiv konvertiert, und der Code dafür sowie die ZIP -Daten wird hier als Referenz bereitgestellt.

Vergleich

In diesem Repo wird die Leistung eines isolierten Instruments der Isolation untersucht. In diesem Repo wird daher ein Elasticsearch -Workflow bereitgestellt. Elasticsearch ist eine beliebte Lucene-basierte Volltext- und Vektor-Suchmaschine, deren Verwendung regelmäßig für den Volltext (und heutzutage die Vektorsuche) gerechtfertigt ist.

Aufstellen

Installieren Sie die Abhängigkeiten in virtueller Umgebung über requirements.txt .

 # Setup the environment for the first time
python -m venv .venv  # python -> python 3.11+

# Activate the environment (for subsequent runs)
source .venv/bin/activate

python -m pip install -r requirements.txt

Benchmark -Ergebnisse

Notiz

Die folgenden Zahlen stammen aus einem 2022 M2 MacBook Pro mit 16 GB RAM
Der Suchraum umfasst 129.971 Wine Review -Beschreibungen in Lancyb oder Elasticsearch
Die Abfragen werden zufällig aus einer Liste von 10 Beispielabfragen für FTS und Vektorsuche abgetastet und für 10, 100, 1000 und 10000 zufällige Abfragen ausgeführt
Die Vektordimensionalität für die Einbettungen beträgt 384 ( BAAI/bge-small-en-v1.5 )
Die Vektorsuche in Elasticsearch basiert auf Lucene-HNSW und in LancyB auf IVF-PQ
Die Entfernungsmetrik für die Vektorsuche ist die Ähnlichkeit der Cosinus in beiden DB
Die gemeldeten Laufzeiten (und QPS berechnet) betragen durchschnittlich über 3 Läufe

Zusammenfassung der Ergebnisse für 10.000 zufällige Abfragen:

Fall	ElasticSearch (QPS)	Lancyb (QPS)
FTS: Serie	399.8	468.9
FTS: gleichzeitig	1539.0	528.9
Vektorsuche: Serie	11.9	54.0
Vektorsuche: gleichzeitig	50.7	71.6

Diskussion

Über ihre Python-Clients ist LancyB in Bezug auf QPS (Abfragen pro Sekunde) für den Vektorsuch-Anwendungsfall eindeutig schneller als Elasticsearch und ist auch für den Verwendungsfall für den Volltext-Suchanlagen schneller, wenn mehrere Threads gleichzeitig verwendet werden.
Elasticsearch ist nur für den FTS-Anwendungsfall schneller, insbesondere für das gleichzeitige Szenario wahrscheinlich, da ein nicht blockierender asynchronisierter Client verwendet wird (im Gegensatz zu LancyB vorerst).
Wenn in Zukunft ein Async (nicht blockierender) Python-Client für LancyB verfügbar ist, wird der Durchsatz für LancyB für FTS voraussichtlich noch höher sein.

Serienbenchmark

Der nachstehend gezeigte serielle Benchmark umfasst nacheinander ausführende Abfragen in einer Synchronisierung für die Schleife in Python. Dies ist nicht repräsentativ für einen realistischen Anwendungsfall in der Produktion, aber nützlich, um die Leistung der zugrunde liegenden Suchmaschinen in jedem Fall zu verstehen (Lucene für Elasticsearch und Tantivy für LancyB).

Weitere Details dazu werden in einem Blog -Beitrag besprochen.

Volltext-Suche (FTS)

Abfragen	ElasticSearch (Sec)	ElasticSearch (QPS)	Lancyb (Sec)	Lancyb (QPS)
10	0,0516	193.8	0,0518	193.0
100	0,2589	386.3	0,2383	419.7
1000	2.5748	388.6	2.1759	459.3
10000	25.0318	399.8	21.3196	468.9

Vektorsuche

Abfragen	ElasticSearch (Sec)	ElasticSearch (QPS)	Lancyb (Sec)	Lancyb (QPS)
10	0,8087	12.4	0,2158	46,3
100	7.6020	13.1	1.6803	59,5
1000	84.0086	11.9	16.7948	59,5
10000	842.9494	11.9	185,0582	54.0

Gleichzeitiger Benchmark

Der gleichzeitige Benchmark ist so konzipiert, dass ein realistischer Anwendungsfall für LancyB oder Elasticsearch repliziert wird - bei dem mehrere Abfragen zur gleichen Zeit ankommen, und die Rest -API über dem DB muss asynchrone Anforderungen abwickeln.

Notiz

Die Parallelität in Elasticsearch wird durch seinen asynchronen Kunden erreicht
Die Parallelität in LancyB wird durch Pythons multiprocessing -Bibliothek auf 4 Worker -Threads erreicht (eine höhere Anzahl von Threads führte zu einer langsameren Leistung).