Download de VektorDB - VektorDB download de código fonte

VektorDB

Outro código-fonte

1.0.0

Baixar

Vektordb?

Um banco de dados vetorial mínimo para fins educacionais.

Slogan: mantenha -o simples e eles aprenderão ...

Quer aprender mais? Confira a seção 'Referências' abaixo?

Exemplo: Amazon Bedrock encontra Vektordb

Neste exemplo, usaremos o conjunto de dados de matemática da escola 8K (GSM8K)

 from datasets import load_dataset

# Number of samples we want to process
N_SAMPLES = 100

# Load dataset
# https://huggingface.co/datasets/openai/gsm8k
ds = load_dataset ( "openai/gsm8k" , "main" , split = "train" )[: N_SAMPLES ]
questions = ds [ 'question' ]
answers = ds [ 'answer' ]

que contém "problemas de palavras matemáticas escolares lingüisticamente diversas de alta qualidade" na forma de pares de question-answer como a mostrada abaixo

 ### Question

Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May.
How many clips did Natalia sell altogether in April and May?

### Answer

Natalia sold 48/2 = <<48/2=24>>24 clips in May.
Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72

Nosso objetivo é transformar esses pares question-answer em incorporação, armazená-las no Vektordb e executar algumas operações.

As incorporações são apenas representações numéricas de uma informação, geralmente na forma de vetores. Você pode transformar algum tipo de dados em incorporação (por exemplo? ️??) E eles preservarão o significado dos dados originais. Se você quiser aprender mais sobre incorporações , confira o mapeamento de incorporação: do significado aos vetores e às costas.

Vamos definir uma função auxiliar para chamar modelos de incorporação co -fiada via Amazon Bedrock

 import json
import boto3

# Initialize Bedrock client
bedrock = boto3 . client ( "bedrock-runtime" )

def embed ( texts : list , model_id = "cohere.embed-english-v3" ):
    """Generates embeddings for an array of strings using Cohere Embed models."""
    model_provider = model_id . split ( '.' )[ 0 ]
    assert model_provider == "cohere" , 
        f"Invalid model provider (Got: { model_provider } , Expected: cohere)"

    # Prepare payload
    accept = "*/*"
    content_type = "application/json"
    body = json . dumps ({
        'texts' : texts ,
        'input_type' : "search_document"
    })

    # Call model
    response = bedrock . invoke_model (
        body = body ,
        modelId = model_id ,
        accept = accept ,
        contentType = content_type
    )

    # Process response
    response_body = json . loads ( response . get ( 'body' ). read ())
    return response_body . get ( 'embeddings' )

e use -o para gerar incorporações para um pequeno subconjunto de nossos dados (somente respostas, por enquanto)

 from tqdm import tqdm

# Text call limit for Cohere Embed models via Amazon Bedrock
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-embed.html
MAX_TEXTS_PER_CALL = 96

embeddings = []
for idx in tqdm ( range ( 0 , len ( answers ), MAX_TEXTS_PER_CALL ), "Generating embeddings" ):
    embeddings += embed ( answers [ idx : idx + MAX_TEXTS_PER_CALL ])

Agora estamos prontos para inicializar o VEKTordB e começar a carregar dados

 from vektordb import ANNVectorDatabase
from vektordb . types import Vector

# Initialize database
vector_db = ANNVectorDatabase ()

# Load embeddings into the database
for idx in tqdm ( range ( len ( embeddings )), "Loading embeddings" ):
    vector_db . insert ( idx , Vector ( embeddings [ idx ], { 'answer' : answers [ idx ][: 20 ]}))

Como verificação de sanidade, podemos imprimir uma pequena amostra do nosso banco de dados

 vector_db . display (
    np_format = {
        'edgeitems' : 1 ,
        'precision' : 5 ,
        'threshold' : 3 ,
        'suppress' : True
    },
    keys = range ( 10 )
)

 +-----+-------------------------+------------------------------------+
| Key |           Data          |              Metadata              |
+-----+-------------------------+------------------------------------+
|  0  | [-0.00618 ... -0.00047] | {'answer': 'Natalia sold 48/2 = '} |
|  1  | [-0.01997 ... -0.01791] | {'answer': 'Weng earns 12/60 = $'} |
|  2  | [-0.00623 ... -0.0061 ] | {'answer': 'In the beginning, Be'} |
|  3  | [-0.07849 ...  0.00721] | {'answer': 'Maila read 12 x 2 = '} |
|  4  | [-0.01669 ...  0.01263] | {'answer': 'He writes each frien'} |
|  5  |  [0.02484 ... 0.05185]  | {'answer': 'There are 80/100 * 1'} |
|  6  | [-0.01807 ... -0.01859] | {'answer': 'He eats 32 from the '} |
|  7  | [ 0.01265 ... -0.02016] | {'answer': 'To the initial 2 pou'} |
|  8  | [-0.00504 ...  0.0143 ] | {'answer': 'Let S be the amount '} |
|  9  | [-0.0239  ... -0.00905] | {'answer': 'She works 8 hours a '} |
+-----+-------------------------+------------------------------------+

Nossa instância do VEKTordB é apoiada por uma implementação da pesquisa aproximada dos vizinhos mais próximos (Ann) que usa árvores binárias para representar diferentes partições/divisões do hiperespaço.

Essas partições são geradas escolhendo dois vetores aleatoriamente, encontrando o hiperplano equidistante entre os dois e depois dividindo os outros pontos na left e right dependendo de qual lado estão em

Este processo é repetido até que tenhamos no máximo k itens em cada nó (partição)

Podemos obter melhores resultados gerando uma floresta de árvores *? E pesquisando todos eles, então vamos fazer isso:

 import random

# Set seed value for replication
random . seed ( 42 )

# Plant a bunch of trees ?️
vector_db . build ( n_trees = 3 , k = 3 )
print ( vector_db . trees [ 0 ], " n " )

Aqui está uma representação da primeira árvore em nossa floresta (os nós mostram o número de instâncias em cada partição)

                                                       __________100______________
                                                      /                           
     ________________________________________________63______          __________37___________
    /                                                                /                       
  _51__                                                    _12_      16____               ___21____
 /                                                       /        /                   /         
 6    45____________________                             _7    5    2    _14___        _10_      _11_____
/   /                                                 /    /        /            /        /        
3 3  3           __________42_____________              4  3  2 3       5     _9     _5    5    4     ___7
                /                                     /              /    /     /    /   /    /    
            ___18____               _____24____        2 2             3 2   6  3   4  1  2 3  3 1   6_   1
           /                      /                                       /     /               /  
          _8_      _10_        ___11___      _13_                           3 3    1 3              2  4
         /       /          /            /                                                        / 
         4   4    4    6_     6_      _5    5    8_                                                   3 1
        /  /   /   /     /      /    /   /  
        2 2 3 1  1 3  2  4   2  4    4  1  2 3  3  5
                        /     /   /            / 
                        1 3    3 1  2 2           2 3

Por fim, podemos executar uma consulta simplesmente pesquisando no banco de dados por respostas semelhantes a uma pergunta de destino.

Utilizamos funções de distância, como as mostradas abaixo, para quantificar como dois vetores são semelhantes um para o outro.

Por exemplo, se fizermos a primeira pergunta em nosso conjunto de dados de treinamento

 from vektordb . utils import print_similarity_scores

# Extract first question
query = questions [ 0 ]
print ( " n Query:" , query , " n " )

# Run search and display similarity scores
results = vector_db . search ( embed ([ query ])[ 0 ], 3 )
print_similarity_scores ( results )

Esperamos que a resposta com o mesmo índice ( 0 ) seja o resultado superior:

 Query: Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May.
How many clips did Natalia sell altogether in April and May?

+-----+---------------------+
| Key |        Score        |
+-----+---------------------+
|  0  | 0.15148634752350043 |
|  15 |  0.6105711817572272 |
|  83 |  0.6823805943068366 |
+-----+---------------------+

Referências

Artigos e livros

(Bernhardson, 2015a) Métodos mais próximos de Neisghbor e modelos de vetores - Parte 1
(Bernhardson, 2015b) Vizinhos mais próximos e modelos de vetores - Parte 2 - Algoritmos e estruturas de dados
(Bruch, 2024) Fundamentos de recuperação de vetores
(Manning, Raghavan e Schütze, 2008) Introdução à recuperação de informações
(Pan, Wang & Li, 2023) Pesquisa de sistemas de gerenciamento de banco de dados vetoriais
(Teofili, 2019) Aprendizagem profunda para pesquisa

Cursos? ‍?

COS 597A (Princeton): Memória de longo prazo em AI - Pesquisa de vetor e bancos de dados
CMU 15-445/645 (Carnegie Mellon): Sistemas de banco de dados

Links

Comparação de DB de vetor (SuperLinked)
Banco de dados vetorial incrível

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-28
tamanho 1.46MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos