Descarga duckdb embedding search - Descargar el código fuente duckdb embedding search

duckdb embedding search

Otro código fuente

1.0.0

Descargar

Descripción general

Este repositorio contiene una aplicación Python que utiliza DuckDB como backend para almacenar y recuperar vectores de incrustación. El uso novedoso de DuckDB permite búsquedas de similitud eficientes entre grandes conjuntos de datos. En este ejemplo, hemos cargado comentarios de Hacker News e implementamos la funcionalidad para encontrar los 10 comentarios más similares a un comentario dado.

Características clave

Backend de DuckDB : utiliza DuckDB para un almacenamiento y recuperación eficientes de los vectores de incrustación.
Vectores de incrustación : los vectores de incrustación se generan utilizando modelos de OpenAI, asegurando la comprensión semántica de alta calidad.
Búsqueda de similitud : encuentra los comentarios más similares de un gran conjunto de datos basado en las comparaciones de incrustación.

Empezando

Requisitos previos

Python 3.x
Duckdb
Clave de API de OpenAI

Instalación

Clon el repositorio:

git clone https://github.com/patricktrainer/duckdb-embedding-search.git

Navegue al directorio de repositorio:
```
 cd duckdb-embedding-search
```
Instalar paquetes requeridos:
```
pip install -r requirements.txt
```

Uso

Para usar la aplicación, siga estos pasos:

Configure su tecla API OpenAI : asegúrese de tener su tecla API OpenAI establecida en sus variables de entorno.
Cargue los comentarios : use load_comments.py para cargar comentarios en la base de datos DuckDB. Los comentarios y sus vectores de incrustación correspondientes se almacenarán en la tabla de embeddings de la base de datos hn_embeddings.db .
Ejecute la búsqueda de similitud : ejecute el script principal (por ejemplo, main.py ) y proporcione un comentario de noticias del hacker. El script devolverá los 10 comentarios más similares de la base de datos.

Nota : la función get_similarity en embedding.py creará un nuevo vector de incrustación para el comentario proporcionado si aún no existe en la base de datos. Esto significa que llegará a la API Operai, que contará con el uso de su API.

Resultados de ejemplo

El siguiente ejemplo demuestra la funcionalidad de la aplicación. Se proporciona un comentario como entrada, y la aplicación devuelve los 10 comentarios más similares de la base de datos.

El comentario proporcionado como entrada:

Una cosa que he notado es que muchos ingenieros, cuando buscan una biblioteca en GitHub, verifican el último tiempo de confirmación. Piensan que cuanto más reciente es la última confirmación, mejor compatible es la biblioteca. Pero, ¿qué pasa con un proyecto archivado que hace exactamente lo que necesita hacer, tiene 0 errores y ha sido estable durante años? ¡Eso es como encontrar una joya oculta en una tienda de segunda mano! La mayoría de los ingenieros que veo hoy en día descartarán automáticamente una biblioteca que no está "constantemente" actualizada ... lo que implica que es algo bueno :)

Los comentarios más similares devueltos por la aplicación (abreviado por brevedad):

Texto:> Muerte a bibliotecas compartidas. Los dolores de cabeza que causan simplemente no valen la pena.
Completamente en desacuerdo. A pesar de que una talla no se ajusta a todos, cualquier persona que haga declaraciones radicales sobre bibliotecas estáticas solo declara al mundo cómo son completamente ajenos a los problemas básicos de mantenimiento de software, como el seguimiento de qué paquete de software se actualiza, especialmente aquellos que no se mantienen actualizados a diario.
Similitud: 0.8047998201033179
Texto: muchos puntos buenos aquí, pero el trabajo de mantenimiento para sistemas rentables parece un uso válido del tiempo.
Ahora, algunos sistemas rentables están lentamente y los ingenieros tenuidos pueden mantenerse ocupados haciendo un trabajo de rutina mientras no abordan o intensifican el bitrot. Pero creo que las personas que son buenas para asegurarse de que las cosas aburridas y estables se mantengan aburridas y estables generalmente están subestimadas.
Similitud: 0.796911347299464

Arquitectura

Módulos

connection.py : maneja las conexiones de la base de datos DuckDB.
embedding.py : administra las operaciones vectoriales de incrustación.
operations.py : contiene funciones de utilidad para el procesamiento de datos.
openai_client.py : interfaces con la API de OpenAI.

Integración de DuckDB

DuckDB se usa como una base de datos liviana de alto rendimiento para almacenar vectores de incrustación. El módulo connection.py establece una conexión con DuckDB, y operations.py contiene la lógica para insertar y recuperar incrustaciones.

Vectores de incrustación

Los vectores de incrustación se generan utilizando la API de OpenAI. El módulo openai_client.py contiene la lógica para la interfaz con la API. El módulo embedding.py contiene la lógica para generar vectores de incrustación y compararlos.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-03-05
tamaño 6.08MB
Proviene de Github

Aplicaciones relacionadas

Búsqueda de palabras 800

2024-11-08
azure search python samples

2024-11-05
duckdb wasm

2024-11-04
Búsqueda de palabras Juego de rompecabezas de palabras Última versión

2024-07-11
Juego de búsqueda de palabras para niños, última versión

2023-10-08
Liehuo! Buscar búsqueda en inglés

2011-01-07

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo