Télécharger VectorETL - Téléchargement du code source VectorETL

VectorTl: Framework ETL léger pour les bases de données vectorielles

VectorTl by Context Data est un cadre modulaire conçu pour aider les données et les ingénieurs AI traitent les données de leurs applications en IA en quelques minutes!

VectorTl rationalise le processus de conversion de diverses sources de données en intégres vectoriels et de les stocker dans diverses bases de données vectorielles. Il prend en charge plusieurs sources de données (bases de données, stockage cloud et fichiers locaux), divers modèles d'intégration (y compris OpenAI, Cohere et Google Gemini), et plusieurs cibles de base de données vectorielles (comme Pinecone, Qdrant et Weavate).

Ce pipeline vise à simplifier la création et la gestion des systèmes de recherche de vecteurs, permettant aux développeurs et aux scientifiques des données de créer et d'échec facilement des applications qui nécessitent une recherche sémantique, des systèmes de recommandation ou d'autres opérations à base de vecteurs.

Caractéristiques

Architecture modulaire avec prise en charge de plusieurs sources de données, modèles d'intégration et bases de données vectorielles
Traitement par lots pour une gestion efficace des grands ensembles de données
Chunking et chevauchement configurables pour les données de texte
Intégration facile de nouvelles sources de données, modèles d'intégration et bases de données vectorielles

Documentation

VectorETL End-to-End Flow

Tableau de contenu

Installation
Usage
Aperçu du projet
Configuration
- Configuration de la source
- Utilisation non structurée pour traiter les fichiers source
- Configuration d'intégration
- Configuration cible
Contributif
Exemples
Documentation

1. Installation

pip install --upgrade vector-etl

pip install git+https://github.com/ContextData/VectorETL.git

2. Utilisation

Cette section fournit des instructions sur la façon d'utiliser le cadre ETL pour les bases de données vectorielles. Nous couvrirons en cours d'exécution, valider les configurations et fournirons quelques exemples d'utilisation courants.

Option 1: Importez Vectorretl dans votre application Python (à l'aide d'un fichier de configuration YAML)

En supposant que vous avez un fichier de configuration similaire au fichier ci-dessous.

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " customer_data "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM customers WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : ${OPENAI_API_KEY}
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : ${PINECONE_API_KEY}
  index_name : " customer-embeddings "
  dimension : 1536
  metric : " cosine "

embed_columns :
  - " customer_name "
  - " customer_description "
  - " purchase_history "

Vous pouvez ensuite importer la configuration dans votre projet Python et l'exécuter automatiquement à partir de là

 from vector_etl import create_flow

flow = create_flow ()
flow . load_yaml ( '/path/to/your/config.yaml' )
flow . execute ()

Option 2: Exécution à partir de la ligne de commande à l'aide d'un fichier de configuration

En utilisant le même fichier de configuration YAML à partir de l'option 2 ci-dessus, vous pouvez exécuter le processus directement à partir de votre ligne de commande sans avoir à l'importer dans une application Python.

Pour exécuter le framework ETL, utilisez la commande suivante:

vector-etl -c /path/to/your/config.yaml

Option 3: Importez Vectorretl dans votre application Python

 from vector_etl import create_flow

source = {
    "source_data_type" : "database" ,
    "db_type" : "postgres" ,
    "host" : "localhost" ,
    "port" : "5432" ,
    "database_name" : "test" ,
    "username" : "user" ,
    "password" : "password" ,
    "query" : "select * from test" ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0 ,
}

embedding = {
    "embedding_model" : "OpenAI" ,
    "api_key" : ${ OPENAI_API_KEY },
    "model_name" : "text-embedding-ada-002"
}

target = {
    "target_database" : "Pinecone" ,
    "pinecone_api_key" : ${ PINECONE_API_KEY },
    "index_name" : "my-pinecone-index" ,
    "dimension" : 1536
}

embed_columns = [ "customer_name" , "customer_description" , "purchase_history" ]

flow = create_flow ()
flow . set_source ( source )
flow . set_embedding ( embedding )
flow . set_target ( target )
flow . set_embed_columns ( embed_columns )

# Execute the flow
flow . execute ()

Exemples d'utilisation courants

Voici quelques exemples d'utilisation du cadre ETL pour différents scénarios:

1. Traitement des données d'une base de données PostgreSQL à Pinecone

vector-etl -c config/postgres_to_pinecone.yaml

Où postgres_to_pinecone.yaml peut ressembler:

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " customer_data "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM customers WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : ${OPENAI_API_KEY}
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : ${PINECONE_API_KEY}
  index_name : " customer-embeddings "
  dimension : 1536
  metric : " cosine "

embed_columns :
  - " customer_name "
  - " customer_description "
  - " purchase_history "

2. Traitement des fichiers CSV de S3 à Qdrant

vector-etl -c config/s3_to_qdrant.yaml

Où s3_to_qdrant.yaml peut ressembler:

 source :
  source_data_type : " Amazon S3 "
  bucket_name : " my-data-bucket "
  prefix : " customer_data/ "
  file_type : " csv "
  aws_access_key_id : ${AWS_ACCESS_KEY_ID}
  aws_secret_access_key : ${AWS_SECRET_ACCESS_KEY}
  chunk_size : 1000
  chunk_overlap : 200

embedding :
  embedding_model : " Cohere "
  api_key : ${COHERE_API_KEY}
  model_name : " embed-english-v2.0 "

target :
  target_database : " Qdrant "
  qdrant_url : " https://your-qdrant-cluster-url.qdrant.io "
  qdrant_api_key : ${QDRANT_API_KEY}
  collection_name : " customer_embeddings "

embed_columns : []

3. Présentation du projet

Le cadre Vectorretl (Extract, Transform, Load) est un outil puissant et flexible conçu pour rationaliser le processus d'extraction des données de diverses sources, de le transformer en incorporations vectorielles et de charger ces intérêts en une gamme de bases de données vectorielles.

Il est construit avec la modularité, l'évolutivité et la facilité d'utilisation, ce qui en fait une solution idéale pour les organisations qui cherchent à tirer parti de la puissance de la recherche de vecteurs dans leur infrastructure de données.

Aspects clés:

Extraction de données polyvalente : le framework prend en charge un large éventail de sources de données, y compris les bases de données traditionnelles, les solutions de stockage cloud (comme Amazon S3 et Google Cloud Storage) et les plates-formes SaaS populaires (telles que Stripe et Zendesk). Cette polyvalence vous permet de consolider les données de plusieurs sources dans une base de données vectorielle unifiée.
Traitement de texte avancé : pour les données textuelles, le cadre met en œuvre des techniques sophistiquées de section et de chevauchement. Cela garantit que le contexte sémantique du texte est préservé lors de la création d'incorporation vectorielle, conduisant à des résultats de recherche plus précis.
Modèles d'incorporation de pointe : le système s'intègre aux principaux modèles d'intégration, notamment OpenAI, Cohere, Google Gemini et Azure OpenAI. Cela vous permet de choisir le modèle d'incorporation qui correspond le mieux à votre cas d'utilisation spécifique et à vos exigences de qualité.
Prise en charge de la base de données vectorielle multiple : Que vous utilisiez Pinecone, Qdrant, Weavate, Singlestore, Supabase ou LancedB, ce framework vous a couvert. Il est conçu pour interfacer de manière transparente avec ces bases de données de vecteur populaires, vous permettant de choisir celle qui répond le mieux à vos besoins.
Configurable et extensible : l'ensemble du framework est hautement configurable via des fichiers de configuration YAML ou JSON. De plus, son architecture modulaire facilite l'extension avec de nouvelles sources de données, des modèles d'intégration ou des bases de données vectorielles à mesure que vos besoins évoluent.

Ce cadre ETL est idéal pour les organisations qui cherchent à implémenter ou à mettre à niveau leurs capacités de recherche vectorielle.

En automatisant le processus d'extraction des données, de la création d'incorporces vectorielles et de les stocker dans une base de données vectorielle, ce cadre réduit considérablement le temps et la complexité impliqués dans la configuration d'un système de recherche de vecteur. Il permet aux scientifiques des données et aux ingénieurs de se concentrer sur la dérivation des informations et la création d'applications, plutôt que de s'inquiéter des subtilités du traitement des données et du stockage vectoriel.

4. Configuration

L'ETL Framework utilise un fichier de configuration pour spécifier les détails de la source, du modèle d'intégration, de la base de données cible et d'autres paramètres. Vous pouvez utiliser le format YAML ou JSON pour le fichier de configuration.

Structure du fichier de configuration

Le fichier de configuration est divisé en trois sections principales:

source : Spécifie les détails de la source de données
embedding : définit le modèle d'incorporation à utiliser
target : décrit la base de données vectorielle cible
embed_columns : définit les colonnes qui doivent être intégrées (principalement pour les sources de données structurées)

Exemples de configurations

Importation de VectorTl dans votre application Python

 from vector_etl import create_flow

source = {
    "source_data_type" : "database" ,
    "db_type" : "postgres" ,
    "host" : "localhost" ,
    "port" : "5432" ,
    "database_name" : "test" ,
    "username" : "user" ,
    "password" : "password" ,
    "query" : "select * from test" ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0 ,
}

embedding = {
    "embedding_model" : "OpenAI" ,
    "api_key" : ${ OPENAI_API_KEY },
    "model_name" : "text-embedding-ada-002"
}

target = {
    "target_database" : "Pinecone" ,
    "pinecone_api_key" : ${ PINECONE_API_KEY },
    "index_name" : "my-pinecone-index" ,
    "dimension" : 1536
}

embed_columns = [ "customer_name" , "customer_description" , "purchase_history" ]

Configuration du fichier YAML autonome (par exemple config.yaml)

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " mydb "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM mytable WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : " your-openai-api-key "
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : " your-pinecone-api-key "
  index_name : " my-index "
  dimension : 1536
  metric : " cosine "
  cloud : " aws "
  region : " us-west-2 "

embed_columns :
  - " column1 "
  - " column2 "
  - " column3 "

Configuration du fichier JSON autonome (par exemple config.json)

{
  "source" : {
    "source_data_type" : " database " ,
    "db_type" : " postgres " ,
    "host" : " localhost " ,
    "database_name" : " mydb " ,
    "username" : " user " ,
    "password" : " password " ,
    "port" : 5432 ,
    "query" : " SELECT * FROM mytable WHERE updated_at > :last_updated_at " ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0
  },

  "embedding" : {
    "embedding_model" : " OpenAI " ,
    "api_key" : " your-openai-api-key " ,
    "model_name" : " text-embedding-ada-002 "
  },

  "target" : {
    "target_database" : " Pinecone " ,
    "pinecone_api_key" : " your-pinecone-api-key " ,
    "index_name" : " my-index " ,
    "dimension" : 1536 ,
    "metric" : " cosine " ,
    "cloud" : " aws " ,
    "region" : " us-west-2 "
  },

  "embed_columns" : [ " column1 " , " column2 " , " column3 " ]
}

Sections de configuration expliquées

Configuration de la source

La section source varie en fonction de la source_data_type . Voici des exemples pour différents types de sources:

Source de base de données

{
  "source_data_type" : " database " ,
  "db_type" : " postgres " ,  # or "mysql", "snowflake", "salesforce"
  "host" : " localhost " ,
  "database_name" : " mydb " ,
  "username" : " user " ,
  "password" : " password " ,
  "port" : 5432 ,
  "query" : " SELECT * FROM mytable WHERE updated_at > :last_updated_at " ,
  "batch_size" : 1000 ,
  "chunk_size" : 1000 ,
  "chunk_overlap" : 0
}

 source :
  source_data_type : " database "
  db_type : " postgres "  # or "mysql", "snowflake", "salesforce"
  host : " localhost "
  database_name : " mydb "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM mytable WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

Source S3

{
  "source_data_type" : " Amazon S3 " ,
  "bucket_name" : " my-bucket " ,
  "key" : " path/to/files/ " ,
  "file_type" : " .csv " ,
  "aws_access_key_id" : " your-access-key " ,
  "aws_secret_access_key" : " your-secret-key "
}

 source :
  source_data_type : " Amazon S3 "
  bucket_name : " my-bucket "
  key : " path/to/files/ "
  file_type : " .csv "
  aws_access_key_id : " your-access-key "
  aws_secret_access_key : " your-secret-key "

Source Google Cloud Storage (GCS)

{
  "source_data_type" : " Google Cloud Storage " ,
  "credentials_path" : " /path/to/your/credentials.json " ,
  "bucket_name" : " myBucket " ,
  "prefix" : " prefix/ " ,
  "file_type" : " csv " ,
  "chunk_size" : 1000 ,
  "chunk_overlap" : 0
}

 source :
  source_data_type : " Google Cloud Storage "
  credentials_path : " /path/to/your/credentials.json "
  bucket_name : " myBucket "
  prefix : " prefix/ "
  file_type : " csv "
  chunk_size : 1000
  chunk_overlap : 0

Utilisation non structurée pour traiter les fichiers source

À partir de la version 0.1.6.3, les utilisateurs peuvent désormais utiliser l'API sans serveur non structurée pour extraire efficacement les données d'une multitude de sources basées sur des fichiers.

Remarque: Ceci est limité à l'API sans structuration sans séparation et ne doit pas être utilisé pour le cadre open source non structuré

Ceci est limité aux fichiers [pdf, docx, doc, txt]

Afin d'utiliser non structuré, vous aurez besoin de trois paramètres supplémentaires

use_unstructured : (true / false) indicateur indiquant au framework pour utiliser l'API non structurée
unstructured_api_key : entrez votre clé d'API non structurée
unstructured_url : entrez votre URL de l'API à partir de votre tableau de bord non structuré

 # Example using Local file
source :
  source_data_type : " Local File "
  file_path : " /path/to/file.docx "
  file_type : " docx "
  use_unstructured : True
  unstructured_api_key : ' my-unstructured-key '
  unstructured_url : ' https://my-domain.api.unstructuredapp.io '

# Example using Amazon S3
source :
  source_data_type : " Amazon S3 "
  bucket_name : " myBucket "
  prefix : " Dir/Subdir/ "
  file_type : " pdf "
  aws_access_key_id : " your-access-key "
  aws_secret_access_key : " your-secret-access-key "
  use_unstructured : True
  unstructured_api_key : ' my-unstructured-key '
  unstructured_url : ' https://my-domain.api.unstructuredapp.io '

Configuration d'intégration

La section embedding spécifie quel modèle d'intégration à utiliser:

 embedding :
  embedding_model : " OpenAI "  # or "Cohere", "Google Gemini", "Azure OpenAI", "Hugging Face"
  api_key : " your-api-key "
  model_name : " text-embedding-ada-002 "  # model name varies by provider

Configuration cible

La section target varie en fonction de la base de données vectorielle choisie. Voici un exemple pour Pinecone:

 target :
  target_database : " Pinecone "
  pinecone_api_key : " your-pinecone-api-key "
  index_name : " my-index "
  dimension : 1536
  metric : " cosine "
  cloud : " aws "
  region : " us-west-2 "

Colonnes intégrés

La liste embed_columns spécifie quelles colonnes des données source doivent être utilisées pour générer les intégres (s'applique uniquement aux sources de base de données pour l'instant):

 embed_columns :
  - " column1 "
  - " column2 "
  - " column3 "

La liste embed_columns n'est requise que pour les sources de données structurées (par exemple PostgreSQL, MySQL, Snowflake). Pour toutes les autres sources, utilisez une liste vide

 embed_columns : []

Gestion des informations sensibles

Pour protéger les informations sensibles comme les clés API et les mots de passe, envisagez d'utiliser des variables environnementales ou un système de gestion des secrets sécurisés. Vous pouvez ensuite les référer dans votre fichier de configuration:

 embedding :
  api_key : ${OPENAI_API_KEY}

Cela vous permet de conserver vos fichiers de configuration dans le contrôle de version sans exposer les données sensibles.

N'oubliez pas d'ajuster votre configuration en fonction de vos sources de données spécifiques, de vos modèles d'intégration et de vos bases de données cibles. Reportez-vous à la documentation de chaque service afin de vous assurer que vous fournissez tous les paramètres requis.

5. Contribuer

Nous accueillons des contributions au Framework ETL pour les bases de données vectorielles! Que vous fixiez des bogues, que vous amélioriez la documentation ou que vous proposiez de nouvelles fonctionnalités, vos efforts sont appréciés. Voici comment vous pouvez contribuer:

Problèmes de rapport

Si vous rencontrez un bogue ou si vous avez une suggestion pour améliorer le cadre ETL:

Vérifiez les problèmes de GitHub pour voir si le problème ou la suggestion a déjà été signalé.
Sinon, ouvrez un nouveau problème. Fournir un titre et une description clairs, et autant d'informations pertinentes que possible, notamment:
- Étapes à reproduire (pour les insectes)
- Comportement attendu
- Comportement réel
- Votre système d'exploitation et votre version Python
- Parties pertinentes de votre fichier de configuration (n'oubliez pas de supprimer des informations sensibles)

Suggérant des améliorations

Nous recherchons toujours des moyens d'améliorer le cadre ETL. Si vous avez des idées:

Ouvrez un nouveau numéro sur GitHub.
Utilisez un titre clair et descriptif.
Fournir une description détaillée de l'amélioration suggérée.
Expliquez pourquoi cette amélioration serait utile à la plupart des utilisateurs.

Des demandes de traction

Nous accueillons activement vos demandes de traction:

Fourk le repo et créez votre branche à partir de main .
Si vous avez ajouté du code qui doit être testé, ajoutez des tests.
Si vous avez modifié les API, mettez à jour la documentation.
Assurez-vous les passes de suite d'essai.
Assurez-vous que votre code suit les conventions de style existantes (voir les normes de codage ci-dessous).
Émettez cette demande de traction!

Normes de codage

Pour maintenir la cohérence tout au long du projet, veuillez respecter ces normes de codage:

Suivez le guide de style PEP 8 pour le code Python.
Utilisez des noms de variables significatifs et ajoutez des commentaires si nécessaire.
Écrivez les docstrings pour toutes les fonctions, classes et modules.
Gardez les fonctions petites et concentrées sur une seule tâche.
Utilisez des conseils de type pour améliorer la lisibilité du code et capturer les erreurs de type potentiel liées au type.

Documentation

L'amélioration de la documentation est toujours appréciée:

Si vous trouvez une faute de frappe ou une erreur dans la documentation, n'hésitez pas à soumettre une demande de traction avec la correction.
Pour des modifications substantielles de la documentation, veuillez d'abord ouvrir un problème pour discuter des modifications proposées.

Ajout de nouvelles fonctionnalités

Si vous songez à ajouter une nouvelle fonctionnalité:

Ouvrez un problème pour discuter de la fonctionnalité avant de commencer le développement.
Pour les nouvelles sources de données:
- Ajoutez un nouveau fichier dans le répertoire source_mods .
- Implémentez les méthodes nécessaires telles que définies dans la classe de base.
- Mettez à jour la fonction get_source_class dans source_mods/__init__.py .
Pour les nouveaux modèles d'intégration:
- Ajoutez un nouveau fichier dans le répertoire embedding_mods .
- Implémentez les méthodes nécessaires telles que définies dans la classe de base.
- Mettez à jour la fonction get_embedding_model dans embedding_mods/__init__.py .
Pour les nouvelles bases de données vectorielles:
- Ajoutez un nouveau fichier dans le répertoire target_mods .
- Implémentez les méthodes nécessaires telles que définies dans la classe de base.
- Mettez à jour la fonction get_target_database dans target_mods/__init__.py .

Essai

Écrivez des tests unitaires pour de nouvelles fonctionnalités ou des corrections de bogues.
Assurez-vous que tous les tests réussissent avant de soumettre une demande de traction.
Visez une couverture de test élevée, en particulier pour les parties critiques de la base de code.

Commettre des messages

Utilisez des messages de validation clairs et significatifs.
Commencez le message de validation avec un court résumé (jusqu'à 50 caractères).
Si nécessaire, fournissez des explications plus détaillées dans les lignes suivantes.

Processus d'examen

Toutes les soumissions, y compris les soumissions des membres du projet, nécessitent un examen.
Nous utilisons des demandes GitHub Pull à cet effet.
Les examinateurs peuvent demander des modifications avant qu'une demande de traction puisse être fusionnée.

Communauté (discorde)

Nous encourageons tous les utilisateurs à rejoindre notre serveur Discord pour collaborer avec l'équipe de développement de données de contexte et d'autres contributeurs afin de suggérer des mises à niveau, de nouvelles intégrations et des problèmes.

Développer