Téléchargement vector io - Téléchargement du code source vector io

Cette bibliothèque utilise un format universel pour les ensembles de données vectoriels pour exporter et importer facilement les données de toutes les bases de données vectorielles.

Demandez le support pour un vectordb en votant / commentant ce sondage

Voir la section contributive pour ajouter la prise en charge de votre base de données vectorielle préférée.

Bases de données vectorielles prises en charge

Entièrement pris en charge

Base de données vectorielle	Importer	Exporter
Pignon	✅	✅
Qdrant	✅	✅
Milvus	✅	✅
Recherche de vecteur GCP Vertex AI	✅	✅
Kdb.ai	✅	✅
LancedB	✅	✅
DataSax Astra DB	✅	✅
Chrome	✅	✅
Turbopuffer	✅	✅

Partiel

Base de données vectorielle	Importer	Exporter

En cours

Base de données vectorielle	Importer	Exporter
Recherche Azure AI
Tisser
MongoDB Atlas
Opeensearch
Apache Cassandra
txtai
pgvecteur
Sqlite-vss

Non pris en charge

Base de données vectorielle	Importer	Exporter
Vespa
Marqo
Elasticsearch
Recherche Redis
Maison de clic
Usearch
Rocaille
Epsilla
ActiveLoop Deep Lake
Ouverturedb
Ciel
Meilisearch
Myscale
Néo4j
Nuclia DB
OramaSearch
Coqueluche
Anari ai
Vallon
Apache Solr

Installation

Utilisation de pip

pip install vdf-io

De la source

git clone https://github.com/AI-Northstar-Tech/vector-io.git
cd vector-io
pip install -r requirements.txt

Spécification du format de jeu de données Vector Universal Vector (VDF)

Vdf_meta.json: il s'agit d'un fichier JSON avec le schéma suivant VDFMETA défini dans SRC / VDF_IO / META_TYPES.py:

 class NamespaceMeta ( BaseModel ):
    namespace : str
    index_name : str
    total_vector_count : int
    exported_vector_count : int
    dimensions : int
    model_name : str | None = None
    vector_columns : List [ str ] = [ "vector" ]
    data_path : str
    metric : str | None = None
    index_config : Optional [ Dict [ Any , Any ]] = None
    schema_dict : Optional [ Dict [ str , Any ]] = None


class VDFMeta ( BaseModel ):
    version : str
    file_structure : List [ str ]
    author : str
    exported_from : str
    indexes : Dict [ str , List [ NamespaceMeta ]]
    exported_at : str
    id_column : Optional [ str ] = None

Fichiers / dossiers de parquet pour métadonnées et vecteurs.

Script d'exportation

export_vdf --help
usage: export_vdf [-h] [-m MODEL_NAME]
                  [--max_file_size MAX_FILE_SIZE]
                  [--push_to_hub | --no-push_to_hub]
                  [--public | --no-public]
                  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
                  ...

Export data from various vector databases to the VDF format for vector datasets

options:
  -h, --help            show this help message and exit
  -m MODEL_NAME, --model_name MODEL_NAME
                        Name of model used
  --max_file_size MAX_FILE_SIZE
                        Maximum file size in MB (default:
                        1024)
  --push_to_hub, --no-push_to_hub
                        Push to hub
  --public, --no-public
                        Make dataset public (default:
                        False)

Vector Databases:
  Choose the vectors database to export data from

  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
    pinecone            Export data from Pinecone
    qdrant              Export data from Qdrant
    kdbai               Export data from KDB.AI
    milvus              Export data from Milvus
    vertexai_vectorsearch
                        Export data from Vertex AI Vector
                        Search

Script d'importation

import_vdf --help
usage: import_vdf [-h] [-d DIR] [-s | --subset | --no-subset]
                  [--create_new | --no-create_new]
                  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
                  ...

Import data from VDF to a vector database

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory to import
  -s, --subset, --no-subset
                        Import a subset of data (default: False)
  --create_new, --no-create_new
                        Create a new index (default: False)

Vector Databases:
  Choose the vectors database to export data from

  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
    milvus              Import data to Milvus
    pinecone            Import data to Pinecone
    qdrant              Import data to Qdrant
    vertexai_vectorsearch
                        Import data to Vertex AI Vector Search
    kdbai               Import data to KDB.AI

Script réintégrant

Ce script Python est utilisé pour réintégrer un ensemble de données vectoriel. Il prend un répertoire de l'ensemble de données vectoriel au format VDF et le réemboute à l'aide d'un nouveau modèle. Le script vous permet également de spécifier le nom de la colonne contenant du texte à intégrer.

reembed_vdf --help
usage: reembed_vdf [-h] -d DIR [-m NEW_MODEL_NAME]
                  [-t TEXT_COLUMN]

Reembed a vector dataset

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory of vector dataset in
                        the VDF format
  -m NEW_MODEL_NAME, --new_model_name NEW_MODEL_NAME
                        Name of new model to be used
  -t TEXT_COLUMN, --text_column TEXT_COLUMN
                        Name of the column containing
                        text to be embedded

Exemples

export_vdf -m hkunlp/instructor-xl --push_to_hub pinecone --environment gcp-starter

import_vdf -d /path/to/vdf/dataset milvus

reembed_vdf -d /path/to/vdf/dataset -m sentence-transformers/all-MiniLM-L6-v2 -t title

Suivez l'invite pour sélectionner la plage d'index et d'ID à exporter.

Contributif

Ajout d'une nouvelle base de données vectorielle

Si vous souhaitez ajouter une implémentation d'importation / exportation pour une nouvelle base de données vectorielle, vous devez également implémenter l'autre côté de l'importation / exportation pour la même base de données. Veuillez débarquer le dépôt et envoyer un PR pour les scripts d'importation et d'exportation.

Étapes pour ajouter une nouvelle base de données vectorielle (ABC):

Ajoutez votre nom de base de données dans SRC / VDF_IO / NAMES.py dans la classe DBNAMES ENUM.
Créer de nouveaux fichiers src/vdf_io/export_vdf/export_abc.py et src/vdf_io/import_vdf/import_abc.py pour la nouvelle db.

Exporter :

Dans votre fichier d'exportation, définissez une classe ExportABC qui hérite de ExportVDF.
Spécifiez un DB_NAME_SLUG pour la classe
La classe doit implémenter:
1. Fonction Make_Parser () pour ajouter des arguments spécifiques à la base de données au CLI export_vdf
2. Fonction export_vdb () Pour inviter l'utilisateur pour les informations non fournies dans la CLI. Il doit ensuite appeler la fonction get_data ().
3. Fonction get_data () pour télécharger des points (de manière lot) avec toutes les métadonnées de l'index spécifié de la base de données vectorielle. Ces données doivent être stockées dans une série de fichiers / dossiers parquet. Les métadonnées doivent être stockées dans un fichier JSON avec le schéma ci-dessus.
Utilisez le script pour exporter les données à partir d'un exemple d'index de la base de données vectorielle et vérifiez que les données sont exportées correctement.

Importer :

Dans votre fichier d'importation, définissez une classe importaBC qui hérite de l'importvdf.
Spécifiez un DB_NAME_SLUG pour la classe
La classe doit implémenter:
1. Fonction Make_Parser () pour ajouter des arguments spécifiques à la base de données au CLI import_vdf, comme l'URL de la base de données, tous les jetons d'authentification, etc.
2. Fonction import_vdb () Pour inviter l'utilisateur pour les informations non fournies dans la CLI. Il doit ensuite appeler la fonction upsert_data ().
3. Fonction UPSERT_DATA () pour télécharger des points à partir d'un ensemble de données VDF (de manière lot) avec toutes les métadonnées à l'index spécifié de la base de données vectorielle. Toutes les métadonnées à propos de l'ensemble de données doivent être lues à partir du fichier VDF_META.json dans le dossier VDF.
Utilisez le script pour importer des données à partir de l'exemple de données VDF exportées à l'étape précédente et vérifiez que les données sont importées correctement.

Modification de la spécification VDF

Si vous souhaitez modifier la spécification VDF, veuillez ouvrir un problème pour discuter de la modification avant d'envoyer un PR.

Améliorations de l'efficacité

Si vous souhaitez améliorer l'efficacité des scripts d'importation / exportation, veuillez débarquer le dépôt et envoyer un RP.

Télémétrie

L'exécution des scripts dans le dépôt enverra des données d'utilisation anonymes à AI Northstar Tech pour aider à améliorer la bibliothèque.

Vous pouvez le désactiver en définissant la variable d'environnement DISABLE_TELEMETRY_VECTORIO sur 1 .

Questions

Si vous avez des questions, veuillez ouvrir un problème sur le dépôt ou le message Dhruv Anand sur LinkedIn

Contributeurs

_{Dhruv Anand}
?

_{Jayesh Rathi}

_{Jordan Totten}

Développer

vector io

Bases de données vectorielles prises en charge

Installation

Utilisation de pip

De la source

Spécification du format de jeu de données Vector Universal Vector (VDF)

Script d'exportation

Script d'importation

Script réintégrant

Exemples

Contributif

Ajout d'une nouvelle base de données vectorielle

Modification de la spécification VDF

Améliorations de l'efficacité

Télémétrie

Questions

Contributeurs

Dernière version de Stick War io (Stick War io)

Jeu Punko io

Jeu d'état io

Boas io Serpent

Jeux de récolte io

tsunami

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express