? Base de datos vectorial impresionante
Una lista curada de obras impresionantes relacionadas con la estructura de alta dimensión/búsqueda de datos y la base de datos
Servicios
- Google Vector Search (Vertex AI)
- Piña
- Weaviate [Guía para principiantes]
- Vespa
- Txtai
- marqo
- vecara
- Epsilla
- algolia
- Meilisearch
- nucliadb
- OpenSearch
- MyScale
- Qdrantcloud
- zilliz
- Alibabacloud de OpenSearch
- Cloud de Typesense
- MongoDB Atlas Vector Search
- Superduperdb
- KBD.AI
Comparaciones
- De Vespa
- Comparación de DB vectorial por VectorHub
- MyScale Vector Database Benchmark
Bibliotecas y motores
Datos / vectores multidimensionales
- ? Matriz de características de Vector DB
- Papel faiss
- Tipos
- Qdrant
- Tutorial de video, cuaderno
- enojarse
- NGT
- pgvector
- Croma
- Llamado
- Epsilla
- jvector
- BALSA
- Vierdir
- Viajero
- pequeño vector
- USARECHE
- vear
- MRPT
- Milvus
- infinidad
- hendidura
- cromem-go
- Oasysdb [cuaderno]
- MeilISearch - API del motor de búsqueda para semántica (vectores), texto completo e híbrido Search
- Arroy - Biblioteca aproximada de vecinos más cercanos Rust
- bolsa
- cuvs
- vsag
- sqlite-vec
- Myscaledb
- Hora
- cruel
- Kgraph
- Newneighbors.jl
- Muopdb
Textos
Otros
- Simsimd: Alternativa eficiente a
scipy.spatial.distance y numpy.inner
Puntos de referencia y bases de datos
Ann Benchmarks [papel].
Partes Anns a escala de miles de millones
- Resultado 2021
- Simhadri, Harsha Vardhan, et al. "Resultados de la Big Ann: Competencia Neurips'23". Preimpresión ARXIV ARXIV: 2409.17424 (2024).
Beir
VectordBBench - Una herramienta de referencia de base de datos vectorial, [GitHub]
Los puntos de referencia de la base de datos Vector de Qdrant
MyScale's Vector Database Benchmark
Li, Wen, et al. "Prepara la búsqueda del vecino más cercano en datos de alta dimensión: experimentos, análisis y mejora". Transacciones IEEE sobre conocimiento e ingeniería de datos 32.8 (2019): 1475-1488.
Zeng, Xianzhi, et al. "Candy: un punto de referencia para la búsqueda continua de vecinos más cercanos aproximados con ingestión de datos dinámicos". Preimpresión ARXIV ARXIV: 2406.19651 (2024).
Conjuntos de datos de búsqueda de vectores de Intellabs
Libros
- Fundaciones de estructuras de datos multidimensionales y métricas
- Introducción a la recuperación de la información
- Aprendizaje profundo para la búsqueda
- Fundamentos de la recuperación de vectores
Conferencias y talleres
- Vldb
- Tutorial:
- Nuevas tendencias en la búsqueda de similitud de vector de alta D [diapositivas, video, papel]
- Recuperación de imágenes en la naturaleza (CVPR20) [Video]
- Almiar
- Búsqueda neuronal en acción
- ACM MM 2020: Efectivo y eficiente: hacia la reidentificación de instancias de mundo abierto
- Billion-Scale Aproximadamente la búsqueda del vecino más cercano: [diapositivas, video]
- ¿La búsqueda de instancias es un problema resuelto? [Diapositivas, video]
- Recuperación de generación aumentada y Vespa [diapositivas]
- Desafío de indexación SISAP
- Competencia 2023
- Competencia 2024
Cursos
- Memoria a largo plazo en bases de datos y búsqueda de vectores AI (COS 495 - Princeton) [Notas de clase]
- Recuperación de información de Freiburg WS 2022-2023 [Sitio web, Video Lectures]
- Búsqueda de similitud vectorial y curso FAISS [Lista de reproducción de YouTube]
Otros
- VectorHub: un sitio web de aprendizaje de código abierto gratuito para personas (desarrolladores de software a arquitectos de ML senior) interesado en agregar recuperación de vectores a su pila ML.
Publicaciones
Encuesta
- Pan, James Jie, Jianguo Wang y Guoliang Li. "Encuesta de sistemas de gestión de bases de datos de vectores". Preimpresión ARXIV ARXIV: 2310.14021 (2023). [Papel]
- Aumüller, Martin y Matteo Ceccarello. "Enfoques y tendencias recientes en la búsqueda aproximada del vecino más cercano". {IEEE} Boletín de ingeniería de datos (2023).
- Búsqueda de vecinos más cercanos: el viejo, lo nuevo y lo imposible. Andoni, Alexandr. [Papel]
- Ganbarov, Ali, et al. "Comparación experimental de algoritmos de búsqueda de vecinos más cercanos basados en gráficos en dispositivos en el borde". Preimpresión ARXIV ARXIV: 2411.14006 (2024).
Cuantificación
Fuente: Una encuesta de cuantificación de productos.
- PQ: Cuantificación de productos para la búsqueda de vecinos más cercanos. Jegou, Herve, Matthijs Douze y Cordelia Schmid. [Documento, Código, Código Julia, NanopQ]
- K-Selection on GPU: búsqueda de similitud a escala de miles de millones con GPU. Johnson, Jeff, Matthijs Douze y Hervé Jégou [papel, código]
- Una encuesta de cuantificación de productos. Matsui, Yusuke, Yusuke Uchida, Hervé Jégou y Shin'ichi Satoh [papel]
- OPQ: cuantización optimizada del producto. GE, Tiezheng, Kaiming He, Qifa Ke y Jian Sun [Página de inicio, papel, código, nanopq]
- ADC más rápido: desbloquear el potencial oculto de la cuantización del producto con SIMD. André, Fabien, Anne-Marie Kermarrec y Nicolas Le Scouarnec [Paper, Código]
- Aceleró la búsqueda del vecino más cercano con ADC rápido. André, Fabien, Anne-Marie Kermarrec y Nicolas Le Scouarnec [Paper].
- La localidad de caché no es suficiente: búsqueda de vecinos más cercanos de alto rendimiento con cuantificación de productos Escaneo rápido. Fabien André, Anne-Marie Kermarrec, Nicolas Le Scouarnec [Paper]
- Escaneo: Acelerar la inferencia a gran escala con la cuantización del vector anisotrópico. Guo, Ruiqi, Philip Sun, Erik Lindgren, Quan Geng, David Simcha, Felix Chern y Sanjiv Kumar [Paper, Python/C ++ Inferencia, Entrenamiento/Inferencia de Julia]
- El múltiple invertido múltiple. Babenko, Artem y Victor Lempitsky [documento, código]
- ¿Ya estamos ahí? Cuantización del producto y su aceleración de hardware. Fernández-Marques, Javier, Ahmed F. Aboulhamayed, Nicholas D. Lane y Mohamed S. Abdelfattah. [Papel]
- LibVQ: un conjunto de herramientas para optimizar la cuantización del vector y la recuperación neural eficiente. Li, Chaofan, Zheng Liu, Shenao Xiao, Yingxia Shao, Defu Lian y Zhao Cao. [Documento, código]
- Matsui, Yusuke, Ryota Hinami y Shin'ichi Satoh. "Índice invertido reconfigurable". Actas de la 26ª Conferencia Internacional de ACM sobre Multimedia. 2018. [Documento, proyecto, código]
- Aguerrebere, Cecilia, et al. "Search de similitud en el parpadeo de un ojo con índices comprimidos". Preimpresión ARXIV ARXIV: 2304.04759 (2023).
- Huijben, Iris, et al. "Cuantización residual con libros de códigos neuronales implícitos". Preimpresión ARXIV ARXIV: 2401.14732 (2024). [Código]
- Rege, Aniket, et al. "Adanns: un marco para la búsqueda semántica adaptativa". Avances en los sistemas de procesamiento de información neural 36 (2024).
- Amara, Kenza, et al. "Búsqueda de vecinos más cercanos con códigos compactos: una perspectiva del decodificador". Actas de la Conferencia Internacional 2022 sobre recuperación multimedia. 2022.
- Krishnan, Aditya y Edo Liberty. "Cuantización de productos de agrupación proyectiva". Preimpresión ARXIV ARXIV: 2112.02179 (2021).
- Noh, Haechan, Taeho Kim y Jae-Pil Heo. "Cantor de productos CONVITADO INFICADO PARA LA BUSTACIÓN DE VECINOS MÁS ACTUALES". Actas de la conferencia internacional IEEE/CVF sobre visión por computadora. 2021.
- Zhan, Jingtao, et al. "Optimizar conjuntamente el codificador de consultas y la cuantización del producto para mejorar el rendimiento de la recuperación". Actas de la 30ª Conferencia Internacional de ACM sobre Gestión de Información y Conocimiento. 2021.
- Wang, Runhui y Dong Deng. "Deltapq: compresión del código de cuantización del producto sin pérdidas para la búsqueda de alta similitud de dimensión". Actas de la dotación VLDB 13.13 (2020): 3603-3616.
- Jang, Young Kyun y Nam Ik Cho. "Red de cuantificación de productos generalizados para la recuperación de imágenes semi-supervisada". Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. 2020.
- Chen, Ting, Lala Li y Yizhou Sun. "Cuantización diferenciable de productos para la compresión de incrustación de extremo a extremo". Conferencia internacional sobre aprendizaje automático. PMLR, 2020.
- Huang, Rong, et al. "Aprender representaciones de documentos discretos en la búsqueda web". Actas de la 29ª Conferencia SIGKDD de ACM sobre descubrimiento de conocimiento y minería de datos. 2023.
- Nardini, Franco Maria, Cosimo Rulli y Rossano Venturini. "Recuperación densa de múltiples vectores eficientes con vectores de bits". Conferencia europea sobre recuperación de información. Cham: Springer Nature Suiza, 2024. [Código]
- Gao, Jianyang y Cheng Long. "Rabitq: cuantificando vectores de alta dimensión con un error teórico vinculado a la búsqueda aproximada del vecino más cercano". Preimpresión ARXIV ARXIV: 2405.12497 (2024). [(Código) [https://github.com/gaoj0017/rabitq]]
- Gao, Jianyang, et al. "Cuantización práctica y asintóticamente óptima de vectores de alta dimensión en el espacio euclidiano para la búsqueda aproximada de vecinos más cercanos". Preimpresión ARXIV ARXIV: 2409.09913 (2024).
- Mohoney, Jason, et al. "Mantenimiento incremental del índice de FIV para la búsqueda de vectores de transmisión". Preimpresión ARXIV ARXIV: 2411.00970 (2024).
- Yang, Mingyu, Wentao Li y Wei Wang. "Search rápido de vecino más cercano de alta dimensión más cercana con tiempo de índice eficiente y espacio". Preimpresión ARXIV ARXIV: 2411.06158 (2024).
Métodos basados en gráficos
- Wang, Zeyu, et al. "Índices basados en gráficos y árboles para la búsqueda de similitud vectorial de alta dimensión: análisis, comparaciones y direcciones futuras". Ingeniería de datos (2023): 3-21.
- Una encuesta integral y comparación experimental de la búsqueda aproximada de vecinos más cercanos basados en gráficos. Wang, Mengzhao, Xiaoliang Xu, Qiang Yue y Yuxiang Wang. [Documento, código]
- Lin, Peng-Cheng y Wan-Lei Zhao. "Búsqueda de vecinos más cercanos basados en gráficos: promesas y fallas". Arxiv Preprint ARXIV: 1904.02077 (2019).
- HNSW: Búsqueda de vecinos más cercanos más eficientes y robustos que utilizan gráficos jerárquicos navegables en pequeños mundos. Malkov, Yu A. y Dmitry A. Yashunin. [Documento, código, versión de óxido, versión GO]
- Escala de algoritmos ANNS basados en gráficos a conjuntos de datos de tamaño mil millones: un análisis comparativo. Dobson, Magdalen, Zheqi Shen, Guy E. Blelloch, Laxman Dhulipala, Yan Gu, Harsha Vardhan Simhadri y Yihan Sun. [Papel]
- Dedo: inferencia rápida para la búsqueda aproximada de vecinos más cercanos basados en gráficos. Chen, Patrick, Wei-Cheng Chang, Jyun-Yu Jiang, Hsiang-Fu Yu, Inderjit Dhillon y Cho-Jui Hsieh [Paper, Video]
- NSG: Navegación del gráfico extendido para la búsqueda aproximada del vecino más cercano. Fu, Cong, Chao Xiang, Changxu Wang y Deng Cai. [Documento, código]
- Efanna: Algoritmo de búsqueda de vecinos más cercanos extremadamente rápido, aproximado, basado en el gráfico KNN. Cong Fu, Deng Cai. [Documento, código]
- Khan, Saim, et al. "Bang: mil millones de escala aproximada de la búsqueda del vecino más cercano usando una sola GPU". Preimpresión ARXIV ARXIV: 2401.11324 (2024).
- Ootomo, Hiroyuki, et al. "Cagra: construcción de gráficos altamente paralelo y un vecino más cercano a la búsqueda de GPU". Preimpresión ARXIV ARXIV: 2308.15136 (2023).
- Oguri, Yutaro y Yusuke Matsui. "Análisis teórico y empírico de la selección de punto de entrada adaptativa para la búsqueda aproximada del vecino más cercano basado en gráficos". Preimpresión ARXIV ARXIV: 2402.04713 (2024).
- Oguri, Yutaro y Yusuke Matsui. "Método de ajuste general y práctico para el índice basado en gráficos estándar: Informe de desafío de indexación SISAP por el equipo Utokyo". Conferencia internacional sobre búsqueda de similitud y aplicaciones. Cham: Springer Nature Suiza, 2023.
- Wang, Mengzhao, et al. "Starling: un marco de índice de gráficos residente de disco de E/S de E/S para la búsqueda de similitud vectorial de alta dimensión en el segmento de datos". Preimpresión ARXIV ARXIV: 2401.02116 (2024). [Código]
- Manohar, Magdalen Dobson, et al. "Parlayann: algoritmos de búsqueda de vecinos más cercanos más cercanos a gráficos paralelos y deterministas de vecinos más cercanos". Actas del 29º Simposio Anual de Sigplan ACM sobre principios y práctica de la programación paralela. 2024. [Código]
- Wang, Mengzhao, et al. "Un marco eficiente y robusto para la búsqueda aproximada del vecino más cercano con la restricción de atributos". Avances en los sistemas de procesamiento de información neural 36 (2024).
- Yu, Shangdi, et al. "Pecann: agrupación eficiente paralela con búsqueda aproximada de vecinos más cercanos basados en gráficos". Preimpresión ARXIV ARXIV: 2312.03940 (2023).
- Azizi, Ilias, Karima Echihabi y Themis Palpanas. "Elpis: búsqueda de similitud basada en gráficos para ciencia de datos escalable". Actas de la dotación VLDB 16.6 (2023): 1548-1559.
- Indyk, Piotr y Haike Xu. "El peor desempeño de la peor de los casos de las implementaciones populares de búsqueda de vecinos más cercanos más cercanos: garantías y limitaciones". Avances en los sistemas de procesamiento de información neural 36 (2024).
- Liu, Jun, et al. "Optimización de la búsqueda de vecinos más cercanos basados en gráficos: más fuerte y más inteligente". 2022 23ª Conferencia Internacional IEEE sobre gestión de datos móviles (MDM). IEEE, 2022.
- Wang, Hui, Yong Wang y Wan-Lei Zhao. "Búsqueda aproximada de NN basada en gráficos: una revisión". Preimpresión ARXIV ARXIV: 2204.00824 (2022).
- Peng, Zhen, et al. "ANN de velocidad: baja latencia y alta precisión de la búsqueda de vecinos más cercanos a través del paralelismo intraidery". Preimpresión ARXIV ARXIV: 2201.13007 (2022).
- Lu, Kejing, et al. "HVS: estructura de gráficos jerárquicos basada en diagramas de Voronoi para resolver la búsqueda aproximada del vecino más cercano". Actas de la dotación VLDB 15.2 (2021): 246-258. [Código]
- Yingfan, Liu, Cheng Hong y Cui Jiangtao. "Revisando la construcción de gráficos vecinos de $ K $-más recibidos en datos de alta dimensión: experimentos y análisis". Preimpresión ARXIV ARXIV: 2112.02234 (2021).
- Zhu, Dantong y Minjia Zhang. "Comprender y generalizar gráficos de proximidad monotónica para la búsqueda aproximada del vecino más cercano". ARXIV Preprint ARXIV: 2107.13052 (2021).
- Gottesbüren, Lars, et al. "Desatar la partición gráfica para la búsqueda de vecinos más cercanos a gran escala". Preimpresión ARXIV ARXIV: 2403.01797 (2024).
- Singh, Aditi, et al. "FreshDiskann: un índice ANN basado en gráficos rápido y preciso para la búsqueda de similitud de transmisión". Preimpresión ARXIV ARXIV: 2105.09613 (2021).
- Wang, Hui, Wan-Lei Zhao y Xiangxiang Zeng. "Construcción del gráfico K-NN aproximado a gran escala en la GPU". ARXIV Preprint ARXIV: 2103.15386 (2021).
- Patel, Liana, et al. "ACORN: Búsqueda de rendimiento y predicado-agnóstico sobre incrustaciones de vectores y datos estructurados". Preimpresión ARXIV ARXIV: 2403.04871 (2024).
- Zuo, Chaoji, et al. "SERF: gráfico de segmento para la búsqueda de vecinos más cercano de filtro de rango más cercano". Actas de la ACM sobre la gestión de los datos 2.1 (2024): 1-26.
- Hezel, Nico, et al. "Un gráfico de exploración con refinamiento continuo para una recuperación multimedia eficiente". Actas de la Conferencia Internacional 2024 sobre recuperación multimedia. 2024.
- Xiao, Wentao, et al. "Mejora del índice HNSW para actualizaciones en tiempo real: abordar los puntos inalcanzables y la degradación del rendimiento". Preimpresión ARXIV ARXIV: 2407.07871 (2024).
- Yang, Shuo, et al. "Revisando la construcción del índice de la búsqueda aproximada de vecinos más cercanos basados en gráficos de proximidad". Preimpresión ARXIV ARXIV: 2410.01231 (2024).
- Gou, Yutong, et al. "Symphonyqg: hacia la integración sinfono de la cuantización y el gráfico para la búsqueda aproximada del vecino más cercano". ARXIV Preprint ARXIV: 2411.12229 (2024).
- Yang, Ming, Yuzheng Cai y Weiguo Zheng. "CSPG: Cruce de gráficos de proximidad dispersos para la búsqueda aproximada del vecino más cercano". La trigésima octava conferencia anual sobre sistemas de procesamiento de información neural.
? Métodos basados en árboles
- Jayaram Subramanya, Suhas, et al. "Diskann: búsqueda de vecino más cercano de mil millones de puntos rápido en un solo nodo". Avances en los sistemas de procesamiento de información neural 32 (2019). [Código]
- Li, Haitao, et al. "Construir el índice basado en árbol para una recuperación densa eficiente y efectiva". Preimpresión ARXIV ARXIV: 2304.11943 (2023).
- Engels, Joshua, et al. "Acerca de la búsqueda del vecino más cercano con los filtros de la ventana". Preimpresión ARXIV ARXIV: 2402.00943 (2024).
- Song, Yang, et al. "Promipres: búsqueda eficiente de productos internos máximos de alta dimensión C-Aprupoximate con un índice liviano". 2021 IEEE 37ª Conferencia Internacional sobre Ingeniería de Datos (ICDE). IEEE, 2021.
- Zhu, Yifan, et al. "GTS: índice de árbol basado en GPU para búsqueda rápida de similitud". Preimpresión ARXIV ARXIV: 2404.00966 (2024).
- Tatsuno, Kento, et al. "AISAQ: ANN de todo el almacenamiento con cuantificación de productos para recuperación de información sin DRA". Preimpresión ARXIV ARXIV: 2404.06004 (2024).
Chava
- Documentos impresionantes para aprender a hash
- Una encuesta sobre aprendizaje al hash. Wang, Jingdong, Ting Zhang, Nicu Sebe y Heng Tao Shen [papel]
- Una encuesta sobre métodos de hashing profundo. Luo, Xiao, Haixin Wang, Daqing Wu, Chong Chen, Minghua Deng, Jianqiang Huang y Xian-Sheng Hua. [Papel]
- Cuantificación iterativa: un enfoque de Procrustean para aprender códigos binarios para la recuperación de imágenes a gran escala. Gong, Yunchao, Svetlana Lazebnik, Albert Gordo y Florent Perronnin [Paper, Código de Python, Código Matlab]
- Gan, Yukang, et al. "Recuperación binaria basada en la incrustación en Tencent". Preimpresión ARXIV ARXIV: 2302.08714 (2023).
- Yan, Bencheng, et al. "Incrustación de hash basado en código binario para aplicaciones a escala web". Actas de la 30ª Conferencia Internacional de ACM sobre Gestión de Información y Conocimiento. 2021.
- Weng, Zhenyu y Yuesheng Zhu. "Hashing en línea sin supervisión con cuantización de múltiples bits". Actas de la conferencia asiática sobre visión por computadora. 2022.
- Huang, Qiang, Yifan Lei y Anthony Kh Tung. "Se busca el vecino más cercano de la hiperspera de vecino más cercano". Actas de la Conferencia Internacional 2021 sobre gestión de datos. 2021.
- Weng, Zhenyu, Yuesheng Zhu y Ruixin Liu. "Busca rápida en códigos binarios a través de la distancia de Hamming ponderada". Preimpresión ARXIV ARXIV: 2009.08591 (2020).
- Jian, Xiaozheng, et al. "Búsqueda de similitud de coseno de Top-K rápida a través de cuantización binaria amigable con XOR en GPU". Preimpresión ARXIV ARXIV: 2008.02002 (2020).
- Zheng, Bolong, et al. "PM-LSH: un marco LSH rápido y preciso para la búsqueda NN aproximada de alta dimensión". Actas de la dotación VLDB 13.5 (2020): 643-655.
- Eghbali, Sepehr. "Búsqueda de vecinos más cercanos con códigos compactos". (2019).
- Lei, Yifan, et al. "Esquema de hashing sensible a la localidad basado en la columna circular más larga". Actas de la Conferencia Internacional Sigmod 2020 ACM sobre gestión de datos. 2020.
- Wei, Jiuqi, et al. "Det-LSH: un esquema de hashes sensible a la localidad con árbol de codificación dinámica para la búsqueda aproximada del vecino más cercano". Preimpresión ARXIV ARXIV: 2406.10938 (2024).
Otros enfoques
- Chen, Qi, et al. "Spann: búsqueda de vecinos más cercanos a la escala de miles de millones altamente eficientes". ARXIV Preprint ARXIV: 2111.08566 (2021). [Código]
- Li, Yuliang, et al. "Consultas de umbral de coseno basadas en índices, de alta dimensión y coseno con garantías de optimización". Teoría de los sistemas de computación 65 (2021): 42-83.
- Chen, Yewang, et al. "Árbol de casco semi-convexo: consultas rápidas de vecinos más cercanos para datos a gran escala en las GPU". Conferencia Internacional IEEE 2018 sobre minería de datos (ICDM). IEEE, 2018.
- Engels, Joshua, Benjamin Coleman y Anshumali Shrivastava. "Práctica cerca de la búsqueda de vecinos a través de pruebas grupales". Avances en los sistemas de procesamiento de información neural 34 (2021): 9950-9962. [Suplemento]
- Gong, Long, et al. "IDEC: Códigos de estimación de distancia indexables para la búsqueda aproximada del vecino más cercano". Actas de la dotación VLDB 13.9 (2020).
- Lu, Kejing, et al. "VHP: la búsqueda aproximada del vecino más cercano a través de la partición virtual de hipersphere". Actas de la dotación VLDB 13.9 (2020): 1443-1455.
- Bing Tian, Haikun Liu, Yuhang Tang, Shihai Xiao, Zhuohui Duan, Xiaofei Liao, Xuecang Zhang, Junhua Zhu, Yu Zhang. "FusionAnns: una arquitectura de procesamiento cooperativa de CPU/GPU eficiente para la búsqueda de vecinos más cercanos a escala de miles de millones". (2024).
- Chen, Zhonghan, et al. "Explorando el significado de la búsqueda del vecino más cercano en el espacio de alta dimensión". Preimpresión ARXIV ARXIV: 2410.05752 (2024).
- Tepper, Mariano, et al. "Gleanvec: búsqueda de vectores de aceleración con una reducción minimalista de dimensionalidad no lineal". Preimpresión ARXIV ARXIV: 2410.22347 (2024).
- Li, Jingyu, et al. "Panther: búsqueda privada de vecino más cercano en la configuración de un solo servidor". Archivo de Eprint de criptología (2024).
- Wei, Jiuqi, et al. "Colisión del subespacio: un marco eficiente y preciso para la búsqueda de vecinos más cercanos aproximados de alta dimensión". Preimpresión ARXIV ARXIV: 2411.14754 (2024).
Sistemas
- Qin, An, et al. "Maze: un sistema de deduplicación de video rentable en la escala web". Actas de la 30ª Conferencia Internacional de ACM sobre Multimedia. 2022.
- Doshi, Ishita, et al. "Lanns: un sistema de búsqueda vecino más cercano a escala web de vecinos más cercanos". Preimpresión ARXIV ARXIV: 2010.09426 (2020).
- Chen, Yaoqi, et al. "Ones Parse: un sistema unificado para la búsqueda de vectores de múltiples Índex". Actas complementarias de la ACM en la conferencia web 2024. 2024.
Otros
- Optimización de búsqueda con impulso de probabilidad de consulta y búsqueda aproximada de dos niveles para dispositivos Edge
- Gao, Jianyang y Cheng Long. "Búsqueda de vecino más cercano aproximado de alta dimensión: con operaciones de comparación de distancia confiables y eficientes". Actas de la ACM sobre la gestión de los datos 1.2 (2023): 1-27.
- Seguimiento aproximado de vecinos más cercanos en sistemas de recomendación. Yury Malkov.
- Acelerar la búsqueda vectorial en la GPU con balsa de rápida. Corey Nolet
- Gupta, Gaurav, et al. "Caps: un índice de partición práctica para la búsqueda de similitud filtrada". Preimpresión ARXIV ARXIV: 2308.15014 (2023).
- Zhu, Yuhao. "RTNN: Acelerar la búsqueda de vecinos usando el trazado de rayos de hardware". Actas del 27º Simposio de Sigplan ACM sobre principios y práctica de la programación paralela. 2022. [Código]
- Levi, Asaf, et al. "Indexación física versus lógica con {idea}: índice invertido {deduplication-consumo}. 22ª Conferencia de Usenix sobre archivos y tecnologías de almacenamiento (Fast 24). 2024. [Código]
- Carra, Damiano y neglia de Giovanni. "Tomando dos pájaros con un caché K-NN". 2021 Conferencia de Comunicaciones Globales IEEE (Globecom). IEEE, 2021.
- Salem, Tareq SI, neglia Giovanni y Damiano Carra. "El caché de la similitud de ascenso con índices aproximados". Transacciones IEEE/ACM en redes (2022).
- Li, Conglong, et al. "Mejora de la búsqueda aproximada del vecino más cercano a través de la terminación temprana adaptativa aprendida". Actas de la Conferencia Internacional Sigmod 2020 ACM sobre gestión de datos. 2020.
- Karpa, Matti, Martin Aumüller y Rasmus Pagh. "Deann: acelerando la estimación de densidad del núcleo utilizando la búsqueda aproximada del vecino más cercano". Conferencia internacional sobre inteligencia y estadísticas artificiales. PMLR, 2022.
- Wang, Zeyu, et al. "Operadores de comparación de distancia para la búsqueda aproximada del vecino más cercano: exploración y punto de referencia". Preimpresión ARXIV ARXIV: 2403.13491 (2024).
- Szilvasy, Gergely, Pierre-Emmanuel Mazaré y Matthijs Douze. "Búsqueda vectorial con pequeños radio". Preimpresión ARXIV ARXIV: 2403.10746 (2024).
- Han, Changhun, Suji Kim y Ha-Myung Park. "Búsqueda de proximidad eficiente en datos de alta dimensión de acumulación de tiempo utilizando la indexación de bloques de niveles múltiples". (2024).
- Tepper, Mariano, et al. "Leanvec: busque en sus vectores más rápido haciéndolos encajar". Preimpresión ARXIV ARXIV: 2312.16335 (2023).
- Harwood, Ben, et al. "Acerca de la búsqueda de vecinos más cercanos en conjuntos de datos dinámicos: una investigación". Preimpresión ARXIV ARXIV: 2404.19284 (2024).
- Caracterización del dilema del rendimiento y el tamaño del índice en la búsqueda vectorial de miles de millones y la ruptura con memoria de segundo nivel
- Xu, Haike. El peor de los casos de las implementaciones populares de búsqueda de vecinos más cercanos aproximados: garantías y limitaciones. Disgusto Instituto de Tecnología de Massachusetts, 2024.
- Lin, Jimmy. "Consejos operativos para los retrievers densos y escasos: ¿HNSW, plano o índices invertidos?" Preimpresión ARXIV ARXIV: 2409.06464 (2024).
- Zhou, Mingxun, Elaine Shi y Giulia Fanti. "Pacmann: Search de vecino más cercano a la eficiente privada". Archivo de Eprint de criptología (2024).
? Evaluación y métricas
- ¿A qué BM25 te refieres? Un estudio de reproducibilidad a gran escala de variantes de puntuación. Kamphuis, Chris, Arjen P. de Vries, Leonid Boytsov y Jimmy Lin [Paper]
? Artículos y charlas
- ¿Qué es una base de datos vectorial?
- Bases de datos vectoriales (Parte 1): ¿Qué hace que cada una sea diferente?
- EBAY's Blazenty Fast Billion a escala de similitud de similitud de similitud
- Reunión de visión por computadora: aplicaciones de visión por computadora a escala con bases de datos vectoriales
- ¿Cómo elegir su base de datos vectorial en 2023?
- ¿Realmente necesitamos una base de datos vectorial especializada?
- La base de datos de Vector no es una categoría de base de datos separada
- Bases de datos vectoriales: un enfoque de primeros principios
- Vector Search Rag Tutorial: combine sus datos con LLMS con búsqueda avanzada
- Búsqueda de similitud vectorial eficiente en flujos de trabajo de recomendación utilizando Milvus con Nvidia Merlin
- Bases de datos vectoriales: ¡una guía para principiantes!
- Base de datos vectorial y primavera ia
- Cómo manejar un millón de integridades vectoriales en las aplicaciones de RAG
- Cómo MeilISearch actualiza una base de datos de Inquiaciones de Vector Millions en menos de un minuto
- Dificultades comunes para evitar al usar bases de datos vectoriales
- Comenzando con bases de datos vectoriales
- Elegir el mejor modelo para la búsqueda semántica
Listas relacionadas
- Impresionante motor de búsqueda de vectores