Descargar VectorETL - Descargar el código fuente de VectorETL

Vectoretl: marco ETL ligero para bases de datos vectoriales

¡Los datos de Vectoretl por contexto es un marco modular diseñado para ayudar a los ingenieros de datos e IA a procesar datos para sus aplicaciones de IA en solo unos minutos!

Vectoretl optimiza el proceso de convertir diversas fuentes de datos en integridades vectoriales y almacenarlas en varias bases de datos de vectores. Admite múltiples fuentes de datos (bases de datos, almacenamiento en la nube y archivos locales), varios modelos de incrustación (incluidos OpenAI, Cohere y Google Gemini) y varios objetivos de base de datos vectoriales (como Pinecone, Qdrant y Weaviate).

Esta tubería tiene como objetivo simplificar la creación y gestión de los sistemas de búsqueda de vectores, lo que permite a los desarrolladores y científicos de datos construir y escalar fácilmente aplicaciones que requieren búsqueda semántica, sistemas de recomendación u otras operaciones basadas en vectores.

Características

Arquitectura modular con soporte para múltiples fuentes de datos, modelos de incrustación y bases de datos vectoriales
Procesamiento por lotes para un manejo eficiente de grandes conjuntos de datos
Following y superposición configurables para datos de texto
Fácil integración de nuevas fuentes de datos, modelos de incrustación y bases de datos vectoriales

Documentación

VectorETL End-to-End Flow

Tabla de contenido

Instalación
Uso
Descripción general del proyecto
Configuración
- Configuración de fuente
- Uso no estructurado para procesar archivos fuente
- Configuración de incrustación
- Configuración de destino
Que contribuye
Ejemplos
Documentación

1. Instalación

pip install --upgrade vector-etl

pip install git+https://github.com/ContextData/VectorETL.git

2. Uso

Esta sección proporciona instrucciones sobre cómo usar el marco ETL para las bases de datos vectoriales. Cubriremos en ejecución, validando configuraciones y proporcionaremos algunos ejemplos de uso comunes.

Opción 1: Importar vectoretl en su aplicación Python (usando un archivo de configuración YAML)

Suponiendo que tiene un archivo de configuración similar al archivo a continuación.

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " customer_data "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM customers WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : ${OPENAI_API_KEY}
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : ${PINECONE_API_KEY}
  index_name : " customer-embeddings "
  dimension : 1536
  metric : " cosine "

embed_columns :
  - " customer_name "
  - " customer_description "
  - " purchase_history "

Luego puede importar la configuración en su proyecto Python y ejecutarla automáticamente desde allí.

 from vector_etl import create_flow

flow = create_flow ()
flow . load_yaml ( '/path/to/your/config.yaml' )
flow . execute ()

Opción 2: ejecutar desde la línea de comando usando un archivo de configuración

Usando el mismo archivo de configuración YAML de la opción 2 anterior, puede ejecutar el proceso directamente desde su línea de comando sin tener que importarlo a una aplicación Python.

Para ejecutar el marco ETL, use el siguiente comando:

vector-etl -c /path/to/your/config.yaml

Opción 3: Importar vectoretl en su aplicación Python

 from vector_etl import create_flow

source = {
    "source_data_type" : "database" ,
    "db_type" : "postgres" ,
    "host" : "localhost" ,
    "port" : "5432" ,
    "database_name" : "test" ,
    "username" : "user" ,
    "password" : "password" ,
    "query" : "select * from test" ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0 ,
}

embedding = {
    "embedding_model" : "OpenAI" ,
    "api_key" : ${ OPENAI_API_KEY },
    "model_name" : "text-embedding-ada-002"
}

target = {
    "target_database" : "Pinecone" ,
    "pinecone_api_key" : ${ PINECONE_API_KEY },
    "index_name" : "my-pinecone-index" ,
    "dimension" : 1536
}

embed_columns = [ "customer_name" , "customer_description" , "purchase_history" ]

flow = create_flow ()
flow . set_source ( source )
flow . set_embedding ( embedding )
flow . set_target ( target )
flow . set_embed_columns ( embed_columns )

# Execute the flow
flow . execute ()

Ejemplos de uso comunes

Aquí hay algunos ejemplos de cómo usar el marco ETL para diferentes escenarios:

1. Procesamiento de datos de una base de datos PostgreSQL a Pinecone

vector-etl -c config/postgres_to_pinecone.yaml

Donde postgres_to_pinecone.yaml podría parecer:

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " customer_data "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM customers WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : ${OPENAI_API_KEY}
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : ${PINECONE_API_KEY}
  index_name : " customer-embeddings "
  dimension : 1536
  metric : " cosine "

embed_columns :
  - " customer_name "
  - " customer_description "
  - " purchase_history "

2. Procesamiento de archivos CSV de S3 a Qdrant

vector-etl -c config/s3_to_qdrant.yaml

Donde s3_to_qdrant.yaml podría parecer:

 source :
  source_data_type : " Amazon S3 "
  bucket_name : " my-data-bucket "
  prefix : " customer_data/ "
  file_type : " csv "
  aws_access_key_id : ${AWS_ACCESS_KEY_ID}
  aws_secret_access_key : ${AWS_SECRET_ACCESS_KEY}
  chunk_size : 1000
  chunk_overlap : 200

embedding :
  embedding_model : " Cohere "
  api_key : ${COHERE_API_KEY}
  model_name : " embed-english-v2.0 "

target :
  target_database : " Qdrant "
  qdrant_url : " https://your-qdrant-cluster-url.qdrant.io "
  qdrant_api_key : ${QDRANT_API_KEY}
  collection_name : " customer_embeddings "

embed_columns : []

3. Descripción general del proyecto

El marco Vectoretl (Extract, Transform, Load) es una herramienta potente y flexible diseñada para optimizar el proceso de extraer datos de varias fuentes, transformarlo en incrustaciones de vectores y cargar estos incrustaciones en una gama de bases de datos vectoriales.

Está construido con modularidad, escalabilidad y facilidad de uso en mente, lo que lo convierte en una solución ideal para las organizaciones que buscan aprovechar el poder de la búsqueda vectorial en su infraestructura de datos.

Aspectos clave:

Extracción de datos versátil : el marco admite una amplia gama de fuentes de datos, incluidas bases de datos tradicionales, soluciones de almacenamiento en la nube (como Amazon S3 y Google Cloud Storage) y plataformas SaaS populares (como Stripe y Zendesk). Esta versatilidad le permite consolidar datos de múltiples fuentes en una base de datos vectorial unificada.
Procesamiento de texto avanzado : para datos textuales, el marco implementa técnicas sofisticadas de fragmentación y superposición. Esto asegura que el contexto semántico del texto se conserve al crear integridades vectoriales, lo que lleva a resultados de búsqueda más precisos.
Modelos de incrustación de última generación : el sistema se integra con los modelos de incrustación líderes, incluidos OpenAI, Cohere, Google Gemini y Azure OpenAi. Esto le permite elegir el modelo de incrustación que mejor se adapte a su caso de uso específico y requisitos de calidad.
Soporte de la base de datos de vectores múltiples : ya sea que esté utilizando Pinecone, Qdrant, Weaviate, Singlestore, Supabase o LancedB, este marco lo tiene cubierto. Está diseñado para interactuar perfectamente con estas populares bases de datos vectoriales, lo que le permite elegir la que mejor se adapte a sus necesidades.
Configurable y extensible : todo el marco es altamente configurable a través de archivos de configuración YAML o JSON. Además, su arquitectura modular facilita la extensión con nuevas fuentes de datos, modelos de incrustación o bases de datos vectoriales a medida que sus necesidades evolucionan.

Este marco ETL es ideal para organizaciones que buscan implementar o actualizar sus capacidades de búsqueda vectorial.

Al automatizar el proceso de extracción de datos, crear integridades vectoriales y almacenarlos en una base de datos vectorial, este marco reduce significativamente el tiempo y la complejidad involucrados en la configuración de un sistema de búsqueda vectorial. Permite a los científicos e ingenieros de datos centrarse en derivar ideas y construir aplicaciones, en lugar de preocuparse por las complejidades del procesamiento de datos y el almacenamiento vectorial.

4. Configuración

El marco ETL utiliza un archivo de configuración para especificar los detalles del modelo de fuente, el modelo de incrustación, la base de datos de destino y otros parámetros. Puede usar el formato YAML o JSON para el archivo de configuración.

Estructura de archivo de configuración

El archivo de configuración se divide en tres secciones principales:

source : Especifica los detalles de la fuente de datos
embedding : define el modelo de incrustación que se utilizará
target : describe la base de datos de vector de destino
embed_columns : define las columnas que necesitan estar integradas (principalmente para fuentes de datos estructuradas)

Configuraciones de ejemplo

Importar vectoretl en su aplicación de Python

 from vector_etl import create_flow

source = {
    "source_data_type" : "database" ,
    "db_type" : "postgres" ,
    "host" : "localhost" ,
    "port" : "5432" ,
    "database_name" : "test" ,
    "username" : "user" ,
    "password" : "password" ,
    "query" : "select * from test" ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0 ,
}

embedding = {
    "embedding_model" : "OpenAI" ,
    "api_key" : ${ OPENAI_API_KEY },
    "model_name" : "text-embedding-ada-002"
}

target = {
    "target_database" : "Pinecone" ,
    "pinecone_api_key" : ${ PINECONE_API_KEY },
    "index_name" : "my-pinecone-index" ,
    "dimension" : 1536
}

embed_columns = [ "customer_name" , "customer_description" , "purchase_history" ]

Configuración de archivo YAML independiente (por ejemplo, config.yaml)

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " mydb "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM mytable WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : " your-openai-api-key "
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : " your-pinecone-api-key "
  index_name : " my-index "
  dimension : 1536
  metric : " cosine "
  cloud : " aws "
  region : " us-west-2 "

embed_columns :
  - " column1 "
  - " column2 "
  - " column3 "

Configuración de archivo JSON independiente (por ejemplo, config.json)

{
  "source" : {
    "source_data_type" : " database " ,
    "db_type" : " postgres " ,
    "host" : " localhost " ,
    "database_name" : " mydb " ,
    "username" : " user " ,
    "password" : " password " ,
    "port" : 5432 ,
    "query" : " SELECT * FROM mytable WHERE updated_at > :last_updated_at " ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0
  },

  "embedding" : {
    "embedding_model" : " OpenAI " ,
    "api_key" : " your-openai-api-key " ,
    "model_name" : " text-embedding-ada-002 "
  },

  "target" : {
    "target_database" : " Pinecone " ,
    "pinecone_api_key" : " your-pinecone-api-key " ,
    "index_name" : " my-index " ,
    "dimension" : 1536 ,
    "metric" : " cosine " ,
    "cloud" : " aws " ,
    "region" : " us-west-2 "
  },

  "embed_columns" : [ " column1 " , " column2 " , " column3 " ]
}

Secciones de configuración explicadas

Configuración de fuente

La sección source varía según el source_data_type . Aquí hay ejemplos para diferentes tipos de fuente:

Fuente de la base de datos

{
  "source_data_type" : " database " ,
  "db_type" : " postgres " ,  # or "mysql", "snowflake", "salesforce"
  "host" : " localhost " ,
  "database_name" : " mydb " ,
  "username" : " user " ,
  "password" : " password " ,
  "port" : 5432 ,
  "query" : " SELECT * FROM mytable WHERE updated_at > :last_updated_at " ,
  "batch_size" : 1000 ,
  "chunk_size" : 1000 ,
  "chunk_overlap" : 0
}

 source :
  source_data_type : " database "
  db_type : " postgres "  # or "mysql", "snowflake", "salesforce"
  host : " localhost "
  database_name : " mydb "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM mytable WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

Fuente S3

{
  "source_data_type" : " Amazon S3 " ,
  "bucket_name" : " my-bucket " ,
  "key" : " path/to/files/ " ,
  "file_type" : " .csv " ,
  "aws_access_key_id" : " your-access-key " ,
  "aws_secret_access_key" : " your-secret-key "
}

 source :
  source_data_type : " Amazon S3 "
  bucket_name : " my-bucket "
  key : " path/to/files/ "
  file_type : " .csv "
  aws_access_key_id : " your-access-key "
  aws_secret_access_key : " your-secret-key "

Fuente de Google Cloud Storage (GCS)

{
  "source_data_type" : " Google Cloud Storage " ,
  "credentials_path" : " /path/to/your/credentials.json " ,
  "bucket_name" : " myBucket " ,
  "prefix" : " prefix/ " ,
  "file_type" : " csv " ,
  "chunk_size" : 1000 ,
  "chunk_overlap" : 0
}

 source :
  source_data_type : " Google Cloud Storage "
  credentials_path : " /path/to/your/credentials.json "
  bucket_name : " myBucket "
  prefix : " prefix/ "
  file_type : " csv "
  chunk_size : 1000
  chunk_overlap : 0

Uso no estructurado para procesar archivos fuente

A partir de la versión 0.1.6.3, los usuarios ahora pueden utilizar la API sin servidor no estructurada para extraer datos de manera eficiente de una multitud de fuentes basadas en archivos.

Nota: Esto se limita a la API grave sin sentido no estructurada y no debe usarse para el marco de código abierto del no estructurado

Esto se limita a los archivos [PDF, DOCX, DOC, TXT]

Para usar no estructurado, necesitará tres parámetros adicionales

use_unstructured : (verdadero/falso) Indicador que le dice al marco que use la API no estructurada
unstructured_api_key : ingrese su tecla API no estructurada
unstructured_url : ingrese su URL API desde su tablero no estructurado

 # Example using Local file
source :
  source_data_type : " Local File "
  file_path : " /path/to/file.docx "
  file_type : " docx "
  use_unstructured : True
  unstructured_api_key : ' my-unstructured-key '
  unstructured_url : ' https://my-domain.api.unstructuredapp.io '

# Example using Amazon S3
source :
  source_data_type : " Amazon S3 "
  bucket_name : " myBucket "
  prefix : " Dir/Subdir/ "
  file_type : " pdf "
  aws_access_key_id : " your-access-key "
  aws_secret_access_key : " your-secret-access-key "
  use_unstructured : True
  unstructured_api_key : ' my-unstructured-key '
  unstructured_url : ' https://my-domain.api.unstructuredapp.io '

Configuración de incrustación

La sección embedding especifica qué modelo de incrustación usar:

 embedding :
  embedding_model : " OpenAI "  # or "Cohere", "Google Gemini", "Azure OpenAI", "Hugging Face"
  api_key : " your-api-key "
  model_name : " text-embedding-ada-002 "  # model name varies by provider

Configuración de destino

La sección target varía según la base de datos vectorial elegida. Aquí hay un ejemplo para Pinecone:

 target :
  target_database : " Pinecone "
  pinecone_api_key : " your-pinecone-api-key "
  index_name : " my-index "
  dimension : 1536
  metric : " cosine "
  cloud : " aws "
  region : " us-west-2 "

Incrustar columnas

La lista de embed_columns especifica qué columnas de los datos de origen deben usarse para generar los incrustaciones (solo se aplica a las fuentes de la base de datos por ahora):

 embed_columns :
  - " column1 "
  - " column2 "
  - " column3 "

La lista de embed_columns solo para fuentes de datos estructuradas (por ejemplo, PostgreSQL, MySQL, Snowflake). Para todas las demás fuentes, use una lista vacía

 embed_columns : []

Manejo de información confidencial

Para proteger la información confidencial como las teclas de API y las contraseñas, considere usar variables de entorno o un sistema de gestión de secretos seguros. Luego puede hacer referencia a estos en su archivo de configuración:

 embedding :
  api_key : ${OPENAI_API_KEY}

Esto le permite mantener sus archivos de configuración en el control de versiones sin exponer datos confidenciales.

Recuerde ajustar su configuración en función de sus fuentes de datos específicas, los modelos de incrustación y las bases de datos de destino. Consulte la documentación para cada servicio para asegurarse de que proporcione todos los parámetros requeridos.

5. Contribuyendo

¡Agradecemos las contribuciones al marco ETL para las bases de datos vectoriales! Ya sea que esté arreglando errores, mejorando la documentación o proponiendo nuevas características, se agradecen sus esfuerzos. Así es como puedes contribuir:

Problemas de informes

Si encuentra un error o tiene una sugerencia para mejorar el marco ETL:

Verifique los problemas de GitHub para ver si el problema o sugerencia ya se ha informado.
Si no, abra un nuevo problema. Proporcione un título y una descripción claros, y la mayor cantidad de información relevante posible, que incluya:
- Pasos para reproducir (para errores)
- Comportamiento esperado
- Comportamiento real
- Su sistema operativo y versión de Python
- Partes relevantes de su archivo de configuración (recuerde eliminar información confidencial)

Sugiriendo mejoras

Siempre estamos buscando formas de mejorar el marco ETL. Si tienes ideas:

Abra un nuevo problema en GitHub.
Use un título claro y descriptivo.
Proporcione una descripción detallada de la mejora sugerida.
Explique por qué esta mejora sería útil para la mayoría de los usuarios.

Solicitud de solicitud

Agradecemos activamente sus solicitudes de extracción:

Bifurca el repositorio y crea su rama desde main .
Si ha agregado un código que debe probarse, agregue pruebas.
Si ha cambiado las API, actualice la documentación.
Asegúrese de que pase la suite de prueba.
Asegúrese de que su código siga las convenciones de estilo existentes (consulte los estándares de codificación a continuación).
¡Emite esa solicitud de extracción!

Estándares de codificación

Para mantener la consistencia en todo el proyecto, adhiera a estos estándares de codificación:

Siga la guía de estilo Pep 8 para el código Python.
Use nombres de variables significativos y agregue comentarios cuando sea necesario.
Escriba documentos para todas las funciones, clases y módulos.
Mantenga las funciones pequeñas y centradas en una sola tarea.
Use sugerencias de tipo para mejorar la legibilidad del código y capturar posibles errores relacionados con el tipo.

Documentación

La mejora de la documentación siempre es apreciada:

Si encuentra un error tipográfico o un error en la documentación, no dude en enviar una solicitud de extracción con la corrección.
Para cambios sustanciales en la documentación, abra primero un problema para discutir los cambios propuestos.

Agregar nuevas características

Si está pensando en agregar una nueva característica:

Abra un tema para discutir la función antes de comenzar el desarrollo.
Para nuevas fuentes de datos:
- Agregue un nuevo archivo en el directorio source_mods .
- Implemente los métodos necesarios según lo definido en la clase base.
- Actualice la función get_source_class en source_mods/__init__.py .
Para nuevos modelos de incrustación:
- Agregue un nuevo archivo en el directorio de embedding_mods .
- Implemente los métodos necesarios según lo definido en la clase base.
- Actualice la función get_embedding_model en embedding_mods/__init__.py .
Para nuevas bases de datos de vectores:
- Agregue un nuevo archivo en el directorio target_mods .
- Implemente los métodos necesarios según lo definido en la clase base.
- Actualice la función get_target_database en target_mods/__init__.py .

Pruebas

Escriba pruebas unitarias para nuevas funciones o correcciones de errores.
Asegúrese de que todas las pruebas pasen antes de enviar una solicitud de extracción.
Apunte a una alta cobertura de prueba, especialmente para partes críticas de la base de código.

Cometer mensajes

Use mensajes de confirmación claros y significativos.
Comience el mensaje de confirmación con un breve resumen (hasta 50 caracteres).
Si es necesario, proporcione explicaciones más detalladas en líneas posteriores.

Proceso de revisión

Todas las presentaciones, incluidas las presentaciones de los miembros del proyecto, requieren revisión.
Utilizamos solicitudes de extracción de GitHub para este propósito.
Los revisores pueden solicitar cambios antes de que se pueda fusionar una solicitud de extracción.

Comunidad (Discord)

Alentamos a todos los usuarios a unirse a nuestro servidor Discord para colaborar con el equipo de desarrollo de datos de contexto y otros contribuyentes para sugerir actualizaciones, nuevas integraciones y problemas.

Expandir