Unduh lancedb study - Unduh Kode Sumber lancedb study

lancedb study

Kode sumber lainnya

1.0.0

Unduh

Benchmark LandedB: Kinerja Pencarian Teks Lengkap dan Vektor

Kode untuk studi benchmark yang dijelaskan dalam posting blog ini.

LandedB adalah basis data vektor open source, tertanam dan ramah pengembang. Beberapa fitur utama tentang Lancedb yang membuatnya sangat berharga tercantum di bawah ini, di antara banyak lainnya yang terdaftar di repo GitHub mereka.

Sangat ringan (tidak ada server DB untuk dikelola), karena berjalan sepenuhnya dalam proses dengan aplikasi
Sangat terukur dari pembangunan ke produksi
Kemampuan untuk melakukan pencarian teks lengkap (FTS), pencarian SQL (via datafusion) dan pencarian vektor Ann
Dukungan data multi-modal (gambar, teks, video, audio, awan titik, dll.)
Nol-copy (melalui panah) dengan versi otomatis data pada format penyimpanan tombak asalnya

Tujuan dari repo ini adalah untuk menunjukkan fitur-fitur pencarian teks lengkap dan vektor dari LandedB melalui tolok ukur ujung ke ujung, di mana kami dengan hati-hati mempelajari hasil dan throughput kueri.

Dataset

Dataset yang digunakan untuk demo ini adalah Dataset Ulasan Anggur dari Kaggle, berisi ~ 130k ulasan tentang anggur bersama dengan metadata lainnya. Dataset dikonversi ke arsip ZIP, dan kode untuk ini serta data ZIP disediakan di sini untuk referensi.

Perbandingan

Mempelajari kinerja alat apa pun secara terpisah merupakan tantangan, jadi demi perbandingan, alur kerja Elasticsearch disediakan dalam repo ini. Elasticsearch adalah mesin pencari teks lengkap dan vektor berbasis Lucene yang populer yang penggunaannya secara teratur dibenarkan untuk teks lengkap (dan hari-hari ini, pencarian vektor), jadi ini menjadikannya alat yang bermakna untuk membandingkan Landedb dengan.

Pengaturan

Instal dependensi di lingkungan virtual melalui requirements.txt .

 # Setup the environment for the first time
python -m venv .venv  # python -> python 3.11+

# Activate the environment (for subsequent runs)
source .venv/bin/activate

python -m pip install -r requirements.txt

Hasil benchmark

Catatan

Angka di bawah ini berasal dari MacBook Pro 2022 m2 dengan RAM 16GB
Ruang pencarian terdiri dari 129.971 deskripsi tinjauan anggur baik di LandedB atau Elasticsearch
Kueri diambil secara acak dari daftar 10 kueri contoh untuk FTS dan pencarian vektor, dan dijalankan untuk 10, 100, 1000 dan 100.000 kueri acak
Dimensi vektor untuk embeddings adalah 384 ( BAAI/bge-small-en-v1.5 )
Pencarian vektor di Elasticsearch didasarkan pada Lucene-HNSW, dan di LandedB, didasarkan pada IVF-PQ
Metrik jarak untuk pencarian vektor adalah kesamaan kosinus di kedua dB
Waktu berjalan dilaporkan (dan QPS dihitung) adalah rata -rata lebih dari 3 run

Ringkasan hasil untuk 10.000 pertanyaan acak:

Kasus	Elasticsearch (QPS)	Landedb (QPS)
FTS: Serial	399.8	468.9
FTS: Bersamaan	1539.0	528.9
Pencarian Vektor: Serial	11.9	54.0
Pencarian Vektor: Bersamaan	50.7	71.6

Diskusi

Melalui klien Python mereka, LANCEDB jelas lebih cepat daripada Elasticsearch dalam hal QPS (kueri per detik) untuk kasus penggunaan pencarian vektor, dan juga lebih cepat untuk kasus penggunaan teks lengkap saat menggunakan beberapa utas secara bersamaan.
Elasticsearch lebih cepat hanya untuk kasus penggunaan FTS, khususnya dalam skenario bersamaan kemungkinan karena menggunakan klien async yang tidak blokir (tidak seperti LancedB, untuk saat ini).
Di masa depan, jika klien Python async (non-blocking) tersedia untuk LandedB, throughput untuk LANCEDB untuk FTS diharapkan bahkan lebih tinggi.

Benchmark serial

Benchmark serial yang ditunjukkan di bawah ini melibatkan kueri yang berjalan secara berurutan dalam sinkronisasi untuk loop di Python. Ini tidak mewakili kasus penggunaan yang realistis dalam produksi, tetapi berguna untuk memahami kinerja mesin pencari yang mendasarinya dalam setiap kasus (Lucene for Elasticsearch dan Tantivy for LanceB).

Rincian lebih lanjut tentang ini akan dibahas dalam posting blog.

Pencarian teks lengkap (FTS)

Kueri	Elasticsearch (SEC)	Elasticsearch (QPS)	Landedb (Sec)	Landedb (QPS)
10	0,0516	193.8	0,0518	193.0
100	0.2589	386.3	0.2383	419.7
1000	2.5748	388.6	2.1759	459.3
10000	25.0318	399.8	21.3196	468.9

Pencarian Vektor

Kueri	Elasticsearch (SEC)	Elasticsearch (QPS)	Landedb (Sec)	Landedb (QPS)
10	0.8087	12.4	0.2158	46.3
100	7.6020	13.1	1.6803	59.5
1000	84.0086	11.9	16.7948	59.5
10000	842.9494	11.9	185.0582	54.0

Benchmark bersamaan

Benchmark bersamaan dirancang untuk mereplikasi kasus penggunaan yang realistis untuk LandedB atau Elasticsearch - di mana banyak kueri tiba pada saat yang sama, dan API REST di atas DB harus menangani permintaan asinkron.

Catatan

Konkurensi dalam Elasticsearch dicapai melalui klien async -nya
Konkurensi di LANCEDB dicapai melalui perpustakaan multiprocessing Python pada 4 utas pekerja (jumlah utas yang lebih tinggi menghasilkan kinerja yang lebih lambat).