Téléchargement de Periplus - Téléchargement du code source Periplus

Periplus

Autre code source

v0.1.0-alpha.1

Télécharger

Périplus

️ AVERTISSEMENT: Periplus est en alpha

Periplus est actuellement en alpha et n'est pas prêt pour la production. Le projet est en cours de développement actif et n'est pas encore recommandé pour une utilisation dans les systèmes de production.

Introduction

Periplus est un cache de base de données vectoriel en mémoire open source construit sur la bibliothèque de recherche de similitude vectorielle de META FAISS. Le projet peut être considéré comme "Redis pour les bases de données vectorielles". Il est conçu pour stocker un sous-ensemble dynamiquement mis à jour d'une grande collection de vecteurs entièrement en mémoire tout en servant des requêtes sans interagir avec d'autres nœuds au moment de la requête. Lorsque Periplus reçoit une requête, il évalue d'abord s'il a la partie pertinente de l'indice en résidence. Si c'est le cas, il résout la requête avec la réponse appropriée. Si ce n'est pas le cas, il renvoie un cache manche et laisse le questionnaire pour récupérer les données de la base de données. Periplus n'est pas conçu pour fonctionner isolément. Au lieu de cela, il est destiné à former une couche de mise en cache modulaire et flexible pour une base de données vectorielle distincte qui forme la couche de persistance. Le but de cela est de permettre une latence plus faible et une échelle horizontale facile pour l'augmentation du débit. Pour une description plus détaillée de l'inspiration derrière Periplus et comment cela fonctionne, vous pouvez lire le blog d'annonce: Présentation de Periplus: une nouvelle approche de la mise en cache de base de données vectorielle.

Comment ça marche

Periplus utilise un indice de fichiers inversé (FIV) comme base de la gestion du cache. Index de fichiers inversés partitionner l'espace vectoriel en cellules contiguës définies par un ensemble de vecteurs centroïdes où chaque cellule est définie comme la région qui est plus proche de son centroïde que de tout autre centroïde. Les requêtes sont ensuite résolues en calculant d'abord les distances du vecteur de requête à l'ensemble des centroïdes, puis en ne recherchant que les cellules définies par le N_Probe (Hyperparamètre de recherche) les centroïdes les plus proches. Periplus en profite en gardant un sous-ensemble de ces cellules dans la résidence à tout moment et en résolvant uniquement les requêtes qui sont pertinentes pour ce sous-ensemble tout en rejetant celles qui ne sont pas au cache. Periplus charge et expulse des cellules de FIV entières à la fois pour maintenir l'intégrité de l'indice et assurer un rappel équivalent (sur des coups de cache) à un indice de FIV standard. Les cellules de FIV sont chargées en interrogeant la base de données vectorielle via un proxy avec une liste d'identifices de vecteurs que périplus maintient pour suivre les vecteurs qui occupent les cellules. Ces opérations peuvent être invoquées par l'utilisateur à l'aide de commandes de charge , de recherche et d'expulsion . Pour plus de détails, consultez la section des commandes Periplus ci-dessous.

Périplus en cours d'exécution

Periplus peut être exécuté en tant que conteneur Docker, soit il peut être construit à partir de Source et s'exécuter en tant qu'exécutable. Aucun binaire officiel n'est actuellement disponible. L'exécution de périplus en tant que conteneur est l'approche recommandée, mais les deux sont des options viables.

? Exécution de périplus comme un conteneur

Actuellement, l'image Docker ne prend en charge que les architectures AMD64. Cette contrainte découle de l'image de base, mais davantage d'architectures seront prises en charge dans un avenir proche. Il existe 2 façons d'exécuter Periplus en tant que conteneur: téléchargez l'image Docker officielle de Dockerhub (recommandé) ou créez l'image vous-même. La première étape dans les deux cas consiste à installer Docker si vous ne l'avez pas déjà fait. Les instructions pour le faire peuvent être trouvées ici.

Utilisation de l'image officielle

Téléchargez l'image en exécutant: docker image pull qdl123/periplus:latest .
Exécutez le conteneur: docker run -p 3000:3000 qdl123/periplus:latest

Construire l'image

Clone The Repository: git clone https://github.com/QDL123/Periplus.git
CD à la racine du référentiel: cd <path-to-periplus-repo>/Periplus
Construisez l'image: docker build -t periplus-image .
Exécutez le conteneur: docker run -p 3000:3000 periplus-image .

Bâtiment périplus de la source

Periplus utilise Cmake pour son système de construction. Il s'attend à ce que toutes les dépendances aient installé des binaires pré-compilés via Homebrew. Homebrew est pris en charge par MacOS, Ubuntu et WSL si vous êtes sous Windows. Periplus a été construit sur MacOS / ARM64 et Ubuntu / AMD64. Toutes les autres combinaisons de système d'exploitation et d'architecture ne sont pas testées. Pour construire Periplus à partir de la source, suivez les étapes suivantes:

Installez Homebrew: Visitez le site officiel de Homebrew ici pour des instructions d'installation.
Installez les dépendances de Periplus. Pour les installer tous en même temps, exécutez: brew install faiss curl cpr rapidjson libomp catch2 cmake
Clone The Repository: git clone https://github.com/QDL123/Periplus.git
CD à la racine du référentiel: cd <path-to-periplus-repo>/Periplus
Générez le makefile: cmake -S . -B build
Compiler l'exécutable: cmake --build build
Exécutez Periplus (écoute sur le port 3000): ./build/periplus -p 3000

Utilisation de Periplus

Tout système utilisant Periplus sera composé de 4 composants: la base de données vectorielle, un proxy de base de données qui permet à Periplus de charger des données à partir de la base de données, une instance Periplus et une application client.

Exemple d'architecture de l'application Periplus

Exemple d'architecture d'une application utilisant Periplus.

La base de données vectorielle

Toute base de données vectorielle qui permet de rechercher des données par un identifiant unique (pratiquement toutes) fonctionnera. Periplus est conçu pour être le plus bénéfique lorsque vous travaillez avec de très grandes collections de vecteurs (milliards à l'échelle) où l'indice doit vivre sur le système de fichiers par opposition à RAM, bien que ce ne soit pas une exigence.

Le proxy de la base de données vectorielle

L'objectif de la base de données vectorielle est de fournir une interface cohérente pour que Periplus interagisse avec la base de données vectorielle. Le proxy doit implémenter une interface de repos qui accepte les demandes de poste du formulaire suivant:

URL: Ceci est flexible et peut être spécifié par le client Periplus.

En-têtes: "Content-Type": "application/json

Corps:

{
    "ids" : [ " id-1 " , " id-2 " , " id-3 " ]
}

Réponse:

{
    "results" : [
        {
            "id" : " String " ,
            "embedding" : [ 0.1 , 0.2 , 0.3 ],
            "document" : " String " ,
            "metdata" : " String "
        }
    ]
}

Pour faciliter la mise en œuvre de ce point de terminaison, vous pouvez utiliser le package Periplus-Proxy Python qui utilise Fastapi pour tout configurer. Tout ce que l'utilisateur a à faire est d'implémenter la fonction suivante et de la passer comme argument:

async def fetch_ids(request: Query) -> QueryResult

Pour plus de détails sur la façon de procéder, vous pouvez consulter le package Periplus-Proxy Readme.md.

Périplus

Suivez les instructions ci-dessus pour démarrer une instance Periplus.

Application client

Pour interagir avec votre instance Periplus, utilisez la bibliothèque client Periplus. Actuellement, seul Python est pris en charge. Pour plus de détails sur la bibliothèque client, vous pouvez afficher sa lecture.md.

Commandes de périplus

Initialiser : il s'agit de la commande de configuration de Periplus. Il doit être appelé avant toute autre commande et tous les appels d'initialisation ultérieurs effaceront toutes les données et réinitialisent l'instance Periplus. Il existe 2 arguments requis: D (dimensionnalité de la collection vectorielle) et DB_URL (URL du point de terminaison proxy de la base de données utilisé pour charger les données). Il existe également un argument d'objet optionnel avec 2 options disponibles: ntotal et use_flat . Le premier, Ntotal , est une estimation du nombre total de vecteurs dans la collection. Ceci est utilisé pour optimiser le nombre de cellules de FIV à utiliser. S'il n'est pas spécifié, Periplus choisira un terrain d'entente qui peut entraîner des performances sous-optimales. Le second, USE_FLAT , est un booléen qui demande à Periplus d'utiliser un index plat au lieu d'appliquer toute quantification de produit (PQ). Par défaut, cette valeur est fausse, auquel cas la quantification du produit sera appliquée si les vecteurs sont suffisamment grands et facilement divisibles en sous-vecteurs. Si elle est définie sur true, un indice de FIV plat sera utilisé à la place.
Train : Cette commande définit la position des centroïdes dans l'indice de FIV qui constitue la base du cache. Une fois les positions centroïdes réglées, elles ne peuvent pas être réinitialisées sans essuyer complètement le cache. Il faut une liste d'incorporation vectorielle comme un argument qui devrait être un échantillon représentatif de votre collection de vecteurs. Il est recommandé d'utiliser jusqu'à 10% de votre collection totale, mais moins est correct pour de très grands ensembles de données où 10% submergeront l'instance Periplus.
Ajouter : Cette commande rend Periplus conscient des données sans réellement remplir le cache, afin qu'il puisse ensuite être chargé à partir de la base de données. Tout vecteur que Periplus devrait être en mesure de charger d'abord doit être enregistré via la commande ADD. La commande prend deux ID d'arguments et intégres qui sont des listes de longueurs égales avec les ID vectoriels et l'incorporation vectorielle correspondante.
Charge : Cette commande demande à Periplus de charger les cellules IVF (voir comment elle fonctionne pour plus de détails) à partir de la base de données. Il a un argument requis, un vecteur lui indiquant quelles cellules cibler et un objectif optionnel avec une option disponible n_load qui lui indique le nombre de cellules à charger. Periplus chargera les cellules N_load les plus proches au vecteur de la base de données (N_load par défaut est 1 si ce n'est pas spécifié). Cela garantit qu'une commande de recherche ultérieure avec le même vecteur donnera un coup de cache (en supposant que la cellule n'a pas été expulsée au préalable et l'argument N_load correspond à l'argument N_Probe donné dans la recherche).
Recherche : Cette commande exécute un ensemble de requêtes par rapport aux données stockées dans Periplus. Il faut 2 arguments requis: K qui spécifie le nombre de voisins les plus proches à retourner, et XQ qui est une liste de vecteurs de requête. Il prend éventuellement un objet d'options avec deux options disponibles: n_probe et require_all . Le premier spécifie le nombre de cellules de FIV à rechercher. Des valeurs plus importantes entraînent une latence accrue mais également un rappel accru (et un taux de réussite du cache inférieur lorsque le requis est utilisé). La valeur par défaut est 1 si non spécifiée. La deuxième option requise_all est un booléen qui dicte le comportement du cache Hit / Miss. S'il est réglé sur true, toutes les cellules les plus proches de N_Probe doivent être en résidence pour que la requête soit un coup de cache. S'il est faux, seule la cellule IVF la plus proche doit être en résidence pour que la requête soit un coup de cache, et Periplus recherchera les cellules de FIV jamais à la résidence jusqu'à la cellule de FIV la plus proche N_Probe . La valeur par défaut est vraie. La commande de recherche renvoie une liste de listes de tuples de document où chaque liste correspond aux k résultats pour le vecteur de requête correspondant fourni à cet index. Les manquements de cache auront une liste de longueur 0. Dans de rares cas, si la longueur est> 0 et <K qui indique que le nombre total de vecteurs dans les cellules N_Probe les plus proches est <k. Chaque document Tuple a 4 champs: ID, intégration, métadonnées et document qui correspondra aux valeurs fournies par le proxy de la base de données lorsque les données ont été chargées.
Evict : Cette commande fonctionne exactement de la même manière que la charge , sauf qu'elle expulse les cellules IVF si elles sont présentes à partir de Periplus au lieu de les charger. Il a une arugment requise, un vecteur lui indiquant quelles cellules cibler, et un objet d'options facultatifs avec une option disponible n_evict whch lui dit combien de cellules expulser. Periplus expulsera les cellules correspondant aux centroïdes n_évicts les plus proches du vecteur de Periplus (N_EVICT par défaut à 1 Il n'est pas spécifié).

Exemple

 from periplus_client import Periplus

# host, port
client = Periplus ( "localhost" , 13 )

# vector dimensionality, database proxy url, options: (nTotal)
await client . initialize ( d = d , db_url = url , options = { "nTotal" : 50000 })

training_data = [[ 0.43456 , ..., 0.38759 ], ...]
await client . train ( training_data )

ids = [ "0" , ..., "n" ]
embeddings = [[ 0.43456 , ..., 0.38759 ], ...]
await client . add ( ids = ids , embeddings = embeddings )

load_options = { "n_load" : 2 }
# query_vector, optional: options object
await client . load ([ embeddings [ 0 ]] load_options )

# k, query_vector
response = await client . search ( 5 , [ embeddings [ 0 ]])
print ( response )
'''
[ // Results for each of the n query vectors in xq
    [ // K nearest neighbors to this corresponding index in the xq list
        (
            id="n",
            embedding=[0.43456, ..., 0.38759],
            document="",
            metadata="{}"
        ),
        ...
    ],
    ...
]
'''

# query_vector
await client . evict ( embeddings [ 0 ])