Download duckdb embedding search , download do código -fonte duckdb embedding search

duckdb embedding search

Outro código-fonte

1.0.0

Baixar

Visão geral

Este repositório contém um aplicativo Python que utiliza o DuckDB como um back -end para armazenar e recuperar vetores de incorporação. O novo uso do DuckDB permite pesquisas eficientes de similaridade entre grandes conjuntos de dados. Neste exemplo, carregamos comentários do Hacker News e implementamos a funcionalidade para encontrar os 10 comentários mais semelhantes a um determinado comentário.

Principais recursos

Back -end do DuckDB : utiliza o DuckDB para armazenamento e recuperação eficiente de incorporação de vetores.
Incorporação de vetores : a incorporação de vetores são gerados usando os modelos do OpenAI, garantindo um entendimento semântico de alta qualidade.
Pesquisa de similaridade : encontra os comentários mais semelhantes de um grande conjunto de dados com base na incorporação de comparações.

Começando

Pré -requisitos

Python 3.x
Duckdb
Chave da API OpenAI

Instalação

Clone o repositório:

git clone https://github.com/patricktrainer/duckdb-embedding-search.git

Navegue até o diretório do repositório:
```
 cd duckdb-embedding-search
```
Instale os pacotes necessários:
```
pip install -r requirements.txt
```

Uso

Para usar o aplicativo, siga estas etapas:

Configure sua chave da API OpenAI : verifique se você tem sua chave de API OpenAI definida em suas variáveis de ambiente.
Carregue os comentários : use load_comments.py para carregar comentários no banco de dados DuckDB. Os comentários e seus vetores de incorporação correspondentes serão armazenados na tabela embeddings do banco de dados hn_embeddings.db .
Execute a pesquisa de similaridade : execute o script principal (por exemplo, main.py ) e forneça um comentário de notícias de hacker. O script retornará os 10 comentários mais semelhantes do banco de dados.

Nota - A função get_similarity no embedding.py criará um novo vetor de incorporação para o comentário fornecido, se ainda não existir no banco de dados. Isso significa que ele atingirá a API do Openai, que contará com o uso da API.

Exemplo de resultados

O exemplo a seguir demonstra a funcionalidade do aplicativo. Um comentário é fornecido como entrada e o aplicativo retorna os 10 comentários mais semelhantes do banco de dados.

O comentário fornecido como entrada:

Uma coisa que notei é que muitos engenheiros, quando estão procurando uma biblioteca no Github, eles verificam o último tempo de compromisso. Eles acham que, quanto mais recente o último compromisso, mais apoiado a biblioteca é. Mas e o projeto arquivado que faz exatamente o que você precisa fazer, tem 0 bugs e tem sido estável há anos? É como encontrar uma jóia escondida em um brechó! A maioria dos engenheiros que vejo hoje em dia descartará automaticamente uma biblioteca que não é "constantemente" atualizada ... implicando que é uma coisa boa :)

Os comentários mais semelhantes retornados pelo aplicativo (abreviado por brevidade):

Texto:> Morte para bibliotecas compartilhadas. As dores de cabeça que causam simplesmente não valem o benefício.
Discordo completamente. Embora um tamanho não se encaixe em todos, qualquer pessoa que faça declarações abrangentes sobre bibliotecas estáticas está apenas afirmando ao mundo como elas são completamente alheias em relação a problemas básicos de manutenção de software, como rastrear qual pacote de software é atualizado, especialmente aqueles que não são mantidos atualizados diariamente.
Similaridade: 0,8047998201033179
Texto: muitos pontos positivos aqui, mas o trabalho de manutenção para sistemas lucrativos parece um uso válido do tempo.
Agora, alguns sistemas lucrativos estão lentamente com a correção de bits e os engenheiros titulares podem se manter ocupados fazendo um trabalho de rotina enquanto não abordam ou escalam o Bitrot. Mas acho que as pessoas que são boas em garantir que as coisas chatas e estáveis permaneçam chatas e estáveis geralmente sejam subestimadas.
Similaridade: 0,796911347299464

Arquitetura

Módulos

connection.py : lida com conexões de banco de dados do DuckDB.
embedding.py : Gerencia a incorporação de operações vetoriais.
operations.py : contém funções utilitárias para processamento de dados.
openai_client.py : interface com a API Openai.

Integração do DuckDB

O DuckDB é usado como um banco de dados leve e de alto desempenho para armazenar vetores de incorporação. O módulo connection.py estabelece uma conexão com o DuckDB, e operations.py contém a lógica para inserir e recuperar incorporações.

Incorporação de vetores

Os vetores de incorporação são gerados usando a API do OpenAI. O módulo openai_client.py contém a lógica para interface com a API. O módulo embedding.py contém a lógica para gerar vetores de incorporação e compará -los.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-05
tamanho 6.08MB
Vindo de Github

Aplicativos Relacionados

Pesquisa de palavras 800

2024-11-08
azure search python samples

2024-11-05
duckdb wasm

2024-11-04
Versão mais recente do jogo de quebra-cabeça de palavras de pesquisa de palavras

2024-07-11
Versão mais recente do jogo Word Search para crianças

2023-10-08
Liehuo! Pesquisar Pesquisa em inglês

2011-01-07

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos