Download lancedb study - Download do código fonte lancedb study

lancedb study

Outro código-fonte

1.0.0

Baixar

Referência de LancedB: Performa

Código para o estudo de referência descrito nesta postagem do blog.

LancedB é um banco de dados vetorial de código aberto, incorporado e amigável para desenvolvedores. Alguns recursos importantes sobre o LancedB que o tornam extremamente valioso estão listados abaixo, entre muitos outros listados em seu repositório do GitHub.

Incrivelmente leve (sem servidores de banco de dados para gerenciar), porque é executado totalmente em processo com o aplicativo
Extremamente escalável do desenvolvimento à produção
Capacidade de executar pesquisa de texto completo (FTS), pesquisa SQL (via DataFusion) e pesquisa de vetor de Ann
Suporte de dados multimodais (imagens, texto, vídeo, áudio, nuvens de ponto, etc.)
Zero cópia (via seta) com versão automática de dados em seu formato de armazenamento nativo de Lance

O objetivo deste repositório é demonstrar os recursos de pesquisa de texto completo e vetorial do LancedB por meio de uma referência de ponta a ponta, na qual estudamos cuidadosamente os resultados da consulta e a taxa de transferência.

Conjunto de dados

O conjunto de dados usado para esta demonstração é o conjunto de dados de revisões de vinhos da Kaggle, contendo ~ 130k reviews em vinhos junto com outros metadados. O conjunto de dados é convertido em um arquivo zip, e o código para isso, bem como os dados ZIP, são fornecidos aqui para referência.

Comparação

Estudando o desempenho de qualquer ferramenta isoladamente é um desafio; portanto, para fins de comparação, um fluxo de trabalho Elasticsearch é fornecido neste repositório. O Elasticsearch é um popular mecanismo de pesquisa de texto completo e vetorial baseado em Lucene, cujo uso é regularmente justificado para texto completo (e atualmente, a pesquisa vetorial), portanto, isso o torna uma ferramenta significativa para comparar o LancedB.

Configurar

Instale as dependências no ambiente virtual via requirements.txt .

 # Setup the environment for the first time
python -m venv .venv  # python -> python 3.11+

# Activate the environment (for subsequent runs)
source .venv/bin/activate

python -m pip install -r requirements.txt

Resultados de referência

Observação

Os números abaixo são de um MacBook Pro 2022 M2 com 16 GB de RAM
O espaço de pesquisa compreende 129.971 descrições de revisão de vinhos em lancedb ou elasticsearch
As consultas são amostradas aleatoriamente a partir de uma lista de 10 consultas de exemplo para Pesquisa de FTS e Vector, e executam 10, 100, 1000 e 10000 consultas aleatórias
A dimensionalidade do vetor para as incorporações é 384 ( BAAI/bge-small-en-v1.5 )
A busca de vetores no Elasticsearch é baseada no Lucene-HNSW e no LancedB, é baseada no IVF-PQ
A métrica de distância para pesquisa vetorial é similaridade de cosseno em qualquer dB
Os tempos de execução relatados (e QPS calculados) são uma média em 3 corridas

Resumo dos resultados para 10.000 consultas aleatórias:

Caso	Elasticsearch (QPS)	Lancedb (QPS)
FTS: Serial	399.8	468.9
FTS: Concorrente	1539.0	528.9
Pesquisa de vetor: serial	11.9	54.0
Pesquisa vetorial: simultânea	50.7	71.6

Discussão

Através de seus clientes Python, o LancedB é claramente mais rápido que o Elasticsearch em termos de QPS (consultas por segundo) para o caso de uso de pesquisa vetorial e também é mais rápido para o caso de uso de pesquisa de texto completo ao usar vários threads simultaneamente.
O Elasticsearch é mais rápido apenas para o caso de uso do FTS, especificamente no cenário simultâneo, provavelmente porque usa um cliente assíncrono não bloqueador (ao contrário do LancedB, por enquanto).
No futuro, se um cliente Python assíncrono (sem bloqueio) estiver disponível para LANDEDB, a taxa de transferência para LANDEBB para FTS deverá ser ainda maior.

Benchmark em série

A referência serial mostrada abaixo envolve consultas em execução sequencial em uma sincronização para loop no Python. Isso não é representativo de um caso de uso realista na produção, mas é útil para entender o desempenho dos mecanismos de pesquisa subjacentes em cada caso (Lucene for Elasticsearch e Tantivy for LancedB).

Mais detalhes sobre isso serão discutidos em uma postagem no blog.

Pesquisa de texto completo (fts)

Perguntas	Elasticsearch (SEC)	Elasticsearch (QPS)	Lancedb (seg)	Lancedb (QPS)
10	0,0516	193.8	0,0518	193.0
100	0,2589	386.3	0,2383	419.7
1000	2.5748	388.6	2.1759	459.3
10000	25.0318	399.8	21.3196	468.9

Pesquisa de vetor

Perguntas	Elasticsearch (SEC)	Elasticsearch (QPS)	Lancedb (seg)	Lancedb (QPS)
10	0.8087	12.4	0,2158	46.3
100	7.6020	13.1	1.6803	59.5
1000	84.0086	11.9	16.7948	59.5
10000	842.9494	11.9	185.0582	54.0

Referência simultânea

O benchmark simultâneo foi projetado para replicar um caso de uso realista para o LancedB ou Elasticsearch - onde várias consultas chegam ao mesmo tempo e a API REST no topo do banco de dados precisa lidar com solicitações assíncronas.

Observação

A concorrência no Elasticsearch é alcançada através de seu cliente assíncrono
A concorrência no LANDEB é alcançada através da biblioteca multiprocessing do Python em 4 threads de trabalhadores (um número maior de threads resultou em desempenho mais lento).