VektorDB скачать - VektorDB исходный код скачать

VektorDB

Другой исходный код

1.0.0

Скачать

Vektordb?

Минимальная векторная база данных для образовательных целей.

Слоган: сохраняйте это проще, и они узнают ...

Хотите узнать больше? Проверьте раздел «ссылки» ниже?

Пример: Amazon Bedrock встречает Vektordb

В этом примере мы будем использовать набор данных Math School Math 8K (GSM8K)

 from datasets import load_dataset

# Number of samples we want to process
N_SAMPLES = 100

# Load dataset
# https://huggingface.co/datasets/openai/gsm8k
ds = load_dataset ( "openai/gsm8k" , "main" , split = "train" )[: N_SAMPLES ]
questions = ds [ 'question' ]
answers = ds [ 'answer' ]

который содержит «высококачественные лингвистически разнообразные проблемы с математикой в математике» в форме пар question-answer , подобных показанным ниже

 ### Question

Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May.
How many clips did Natalia sell altogether in April and May?

### Answer

Natalia sold 48/2 = <<48/2=24>>24 clips in May.
Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May. #### 72

Наша цель состоит в том, чтобы превратить эти пары question-answer в встраивание, хранить их в Vektordb и выполнить некоторые операции.

Встроения - это просто численные представления о части информации, обычно в виде векторов. Вы можете превратить какие -либо данные в встраивание (например,??), И они сохранят значение исходных данных. Если вы хотите узнать больше об встраивании , ознакомьтесь с отображением внедрения: от смысла до векторов и обратно.

Давайте определим вспомогательную функцию для вызова моделей COUCE через Amazon Bedrock

 import json
import boto3

# Initialize Bedrock client
bedrock = boto3 . client ( "bedrock-runtime" )

def embed ( texts : list , model_id = "cohere.embed-english-v3" ):
    """Generates embeddings for an array of strings using Cohere Embed models."""
    model_provider = model_id . split ( '.' )[ 0 ]
    assert model_provider == "cohere" , 
        f"Invalid model provider (Got: { model_provider } , Expected: cohere)"

    # Prepare payload
    accept = "*/*"
    content_type = "application/json"
    body = json . dumps ({
        'texts' : texts ,
        'input_type' : "search_document"
    })

    # Call model
    response = bedrock . invoke_model (
        body = body ,
        modelId = model_id ,
        accept = accept ,
        contentType = content_type
    )

    # Process response
    response_body = json . loads ( response . get ( 'body' ). read ())
    return response_body . get ( 'embeddings' )

и используйте его для создания встроений для небольшого подмножества наших данных (только ответы на данный момент)

 from tqdm import tqdm

# Text call limit for Cohere Embed models via Amazon Bedrock
# https://docs.aws.amazon.com/bedrock/latest/userguide/model-parameters-embed.html
MAX_TEXTS_PER_CALL = 96

embeddings = []
for idx in tqdm ( range ( 0 , len ( answers ), MAX_TEXTS_PER_CALL ), "Generating embeddings" ):
    embeddings += embed ( answers [ idx : idx + MAX_TEXTS_PER_CALL ])

Теперь мы готовы инициализировать Vektordb и начать загрузку данных

 from vektordb import ANNVectorDatabase
from vektordb . types import Vector

# Initialize database
vector_db = ANNVectorDatabase ()

# Load embeddings into the database
for idx in tqdm ( range ( len ( embeddings )), "Loading embeddings" ):
    vector_db . insert ( idx , Vector ( embeddings [ idx ], { 'answer' : answers [ idx ][: 20 ]}))

В качестве проверки здравомыслия мы можем распечатать небольшой образец нашей базы данных

 vector_db . display (
    np_format = {
        'edgeitems' : 1 ,
        'precision' : 5 ,
        'threshold' : 3 ,
        'suppress' : True
    },
    keys = range ( 10 )
)

 +-----+-------------------------+------------------------------------+
| Key |           Data          |              Metadata              |
+-----+-------------------------+------------------------------------+
|  0  | [-0.00618 ... -0.00047] | {'answer': 'Natalia sold 48/2 = '} |
|  1  | [-0.01997 ... -0.01791] | {'answer': 'Weng earns 12/60 = $'} |
|  2  | [-0.00623 ... -0.0061 ] | {'answer': 'In the beginning, Be'} |
|  3  | [-0.07849 ...  0.00721] | {'answer': 'Maila read 12 x 2 = '} |
|  4  | [-0.01669 ...  0.01263] | {'answer': 'He writes each frien'} |
|  5  |  [0.02484 ... 0.05185]  | {'answer': 'There are 80/100 * 1'} |
|  6  | [-0.01807 ... -0.01859] | {'answer': 'He eats 32 from the '} |
|  7  | [ 0.01265 ... -0.02016] | {'answer': 'To the initial 2 pou'} |
|  8  | [-0.00504 ...  0.0143 ] | {'answer': 'Let S be the amount '} |
|  9  | [-0.0239  ... -0.00905] | {'answer': 'She works 8 hours a '} |
+-----+-------------------------+------------------------------------+

Наш экземпляр Vektordb поддерживается реализацией приблизительного поиска ближайших соседей (ANN), который использует бинарные деревья для представления различных разделов/расщепления гиперпространства.

Эти right генерируются путем выбора left векторов случайным

Этот процесс повторяется до тех пор, пока у нас не будет большинства k элементов в каждом узле (раздел)

Мы можем получить лучшие результаты, генерируя лес деревьев *? и ищу их всех, так что давайте сделаем это:

 import random

# Set seed value for replication
random . seed ( 42 )

# Plant a bunch of trees ?️
vector_db . build ( n_trees = 3 , k = 3 )
print ( vector_db . trees [ 0 ], " n " )

Вот представление первого дерева в нашем лесу (узлы показывают количество экземпляров в каждом разделе)

                                                       __________100______________
                                                      /                           
     ________________________________________________63______          __________37___________
    /                                                                /                       
  _51__                                                    _12_      16____               ___21____
 /                                                       /        /                   /         
 6    45____________________                             _7    5    2    _14___        _10_      _11_____
/   /                                                 /    /        /            /        /        
3 3  3           __________42_____________              4  3  2 3       5     _9     _5    5    4     ___7
                /                                     /              /    /     /    /   /    /    
            ___18____               _____24____        2 2             3 2   6  3   4  1  2 3  3 1   6_   1
           /                      /                                       /     /               /  
          _8_      _10_        ___11___      _13_                           3 3    1 3              2  4
         /       /          /            /                                                        / 
         4   4    4    6_     6_      _5    5    8_                                                   3 1
        /  /   /   /     /      /    /   /  
        2 2 3 1  1 3  2  4   2  4    4  1  2 3  3  5
                        /     /   /            / 
                        1 3    3 1  2 2           2 3

Наконец, мы можем запустить запрос, просто выполнив поиск в базе данных для ответов, аналогичных целевым вопросам.

Мы используем функции расстояния, подобные тем, которые показаны ниже, чтобы количественно определить, насколько похожи два вектора друг с другом.

Например, если мы задаем первый вопрос в нашем наборе данных обучения

 from vektordb . utils import print_similarity_scores

# Extract first question
query = questions [ 0 ]
print ( " n Query:" , query , " n " )

# Run search and display similarity scores
results = vector_db . search ( embed ([ query ])[ 0 ], 3 )
print_similarity_scores ( results )

Мы ожидаем, что ответ с тем же индексом ( 0 ) будет верхним результатом:

 Query: Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May.
How many clips did Natalia sell altogether in April and May?

+-----+---------------------+
| Key |        Score        |
+-----+---------------------+
|  0  | 0.15148634752350043 |
|  15 |  0.6105711817572272 |
|  83 |  0.6823805943068366 |
+-----+---------------------+

Ссылки

Статьи и книги

(Bernhardsson, 2015a) Ближайшие методы Neisghbor и векторные модели - Часть 1
(Bernhardsson, 2015b) Ближайшие соседи и векторные модели - часть 2 - алгоритмы и структуры данных
(Бруч, 2024) Основы векторного поиска
(Manning, Raghavan & Schütze, 2008) Введение в поиск информации
(Pan, Wang & Li, 2023) Обзор систем управления базами данных векторных баз данных
(Teofili, 2019) Глубокое обучение для поиска