Descarga lancedb study - Descargar el código fuente lancedb study

lancedb study

Otro código fuente

1.0.0

Descargar

LancedB Benchmark: rendimiento de búsqueda de texto completo y vector

Código para el estudio de referencia descrito en esta publicación de blog.

LancedB es una base de datos vectorial de código abierto, integrada y amigable para el desarrollador. Algunas características clave sobre LancedB que lo hacen extremadamente valioso se enumeran a continuación, entre muchas otras enumeradas en su repositorio de GitHub.

Increíblemente liviano (sin servidores de DB para administrar), porque se ejecuta completamente en proceso con la aplicación
Extremadamente escalable desde el desarrollo hasta la producción
Capacidad para realizar la búsqueda de texto completo (FTS), SQL Search (a través de DataFusion) y Ann Vector Search
Soporte de datos multimodales (imágenes, texto, video, audio, nubes de puntos, etc.)
Cero-copia (a través de flecha) con versiones automáticas de datos en su formato de almacenamiento de lanza nativa

El objetivo de este repositorio es demostrar las características de búsqueda de texto completo y vectores de LancedB a través de un punto de referencia de extremo a extremo, en el que estudiamos cuidadosamente los resultados y el rendimiento de la consulta.

Conjunto de datos

El conjunto de datos utilizado para esta demostración es el conjunto de datos de revisión del vino de Kaggle, que contiene ~ 130k revisiones en vinos junto con otros metadatos. El conjunto de datos se convierte en un archivo zip, y el código para esto, así como los datos zip se proporcionan aquí como referencia.

Comparación

Estudiar el rendimiento de cualquier herramienta en aislamiento es un desafío, por lo que en aras de la comparación, se proporciona un flujo de trabajo Elasticsearch en este repositorio. Elasticsearch es un popular motor de búsqueda de texto completo y vectores basado en Lucene cuyo uso se justifica regularmente para el texto completo (y en estos días, la búsqueda de vectores), por lo que esto lo convierte en una herramienta significativa para comparar LancedB.

Configuración

Instale las dependencias en el entorno virtual a través de requirements.txt .

 # Setup the environment for the first time
python -m venv .venv  # python -> python 3.11+

# Activate the environment (for subsequent runs)
source .venv/bin/activate

python -m pip install -r requirements.txt

Resultados de referencia

Nota

Los números a continuación son de un MacBook Pro 2022 M2 con 16 GB de RAM
El espacio de búsqueda comprende 129,971 descripciones de revisión de vinos en LancedB o Elasticsearch
Las consultas se muestrean aleatoriamente de una lista de 10 consultas de ejemplo para FTS y Vector Search, y se ejecutan para consultas aleatorias de 10, 100, 1000 y 10000
La dimensionalidad vectorial para las integridades es 384 ( BAAI/bge-small-en-v1.5 )
La búsqueda de vectores en Elasticsearch se basa en Lucene-HNSW, y en LancedB, se basa en FIV-PQ
La métrica de distancia para la búsqueda de vectores es la similitud de coseno en cualquier DB
Los tiempos de ejecución informados (y el QPS calculado) son un promedio de más de 3 ejecuciones

Resumen de resultados para 10,000 consultas aleatorias:

Caso	Elasticsearch (QPS)	LancedB (QPS)
FTS: serie	399.8	468.9
FTS: concurrente	1539.0	528.9
Búsqueda de vectores: serie	11.9	54.0
Búsqueda vectorial: concurrente	50.7	71.6

Discusión

A través de sus clientes de Python, LancedB es claramente más rápido que ElasticSearch en términos de QPS (consultas por segundo) para el caso de uso de búsqueda de vectores, y también es más rápido para el caso de uso de búsqueda de texto completo cuando se usa múltiples hilos simultáneamente.
Elasticsearch es más rápido solo para el caso de uso de FTS, específicamente en el escenario concurrente probablemente porque utiliza un cliente Async sin bloqueo (a diferencia de LancedB, por ahora).
En el futuro, si un cliente Python Async (no bloqueado) está disponible para LancedB, se espera que el rendimiento para LancedB para FTS sea aún mayor.

Punto de referencia en serie

El punto de referencia en serie que se muestra a continuación implica consultas de ejecución secuencial en una sincronización para bucle en Python. Esto no es representativo de un caso de uso realista en la producción, pero es útil para comprender el rendimiento de los motores de búsqueda subyacentes en cada caso (Lucene para Elasticsearch y Tantivy para LancedB).

Más detalles sobre esto se discutirán en una publicación de blog.

Búsqueda de texto completo (FTS)

Consultas	Elasticsearch (Sec)	Elasticsearch (QPS)	LancedB (Sec)	LancedB (QPS)
10	0.0516	193.8	0.0518	193.0
100	0.2589	386.3	0.2383	419.7
1000	2.5748	388.6	2.1759	459.3
10000	25.0318	399.8	21.3196	468.9

Búsqueda vectorial

Consultas	Elasticsearch (Sec)	Elasticsearch (QPS)	LancedB (Sec)	LancedB (QPS)
10	0.8087	12.4	0.2158	46.3
100	7.6020	13.1	1.6803	59.5
1000	84.0086	11.9	16.7948	59.5
10000	842.9494	11.9	185.0582	54.0

Punto de referencia concurrente

El punto de referencia concurrente está diseñado para replicar un caso de uso realista para LancedB o Elasticsearch, donde múltiples consultas llegan al mismo tiempo, y la API REST en la parte superior del DB tiene que manejar solicitudes asíncronas.

Nota

La concurrencia en elasticsearch se logra a través de su cliente async
La concurrencia en LancedB se logra a través de la biblioteca multiprocessing de Python en 4 hilos de trabajadores (un mayor número de hilos dio como resultado un rendimiento más lento).