Descargar vector io - Descargar el código fuente de vector io

Esta biblioteca utiliza un formato universal para conjuntos de datos vectoriales para exportar e importar datos fácilmente de todas las bases de datos vectoriales.

Solicitar apoyo para un vectordb votando/comentando esta encuesta

Consulte la sección contribuyente para agregar soporte para su base de datos vectorial favorita.

Bases de datos vectoriales compatibles

Totalmente compatible

Base de datos vectorial	Importar	Exportar
Piña	✅	✅
Qdrant	✅	✅
Milvus	✅	✅
GCP Vertex AI Vector Búsqueda	✅	✅
KDB.AI	✅	✅
LancedB	✅	✅
Datatax Astra DB	✅	✅
Croma	✅	✅
Turboquista	✅	✅

Parcial

Base de datos vectorial	Importar	Exportar

En curso

Base de datos vectorial	Importar	Exportar
Azure AI Search
Tejido
MongoDB Atlas
OpenSearch
Apache Cassandra
Txtai
pgvector
Sqlite-vss

No compatible

Base de datos vectorial	Importar	Exportar
Vespa
Marqo
Elasticsearch
Redis Search
Clickhouse
USARECHE
Juego de rocas
Epsilla
Activeloop Deep Lake
Aperturedb
Cacatado
Meilisearch
MyScale
Neo4J
Nuclia DB
Oramasearch
Tipos
Anari ai
Vierdir
Apache solr

Instalación

Usando Pip

pip install vdf-io

De la fuente

git clone https://github.com/AI-Northstar-Tech/vector-io.git
cd vector-io
pip install -r requirements.txt

Especificación de formato de conjunto de datos de vector universal (VDF)

VDF_Meta.json: es un archivo JSON con el siguiente esquema VDFMeta definido en SRC/VDF_IO/Meta_Types.py:

 class NamespaceMeta ( BaseModel ):
    namespace : str
    index_name : str
    total_vector_count : int
    exported_vector_count : int
    dimensions : int
    model_name : str | None = None
    vector_columns : List [ str ] = [ "vector" ]
    data_path : str
    metric : str | None = None
    index_config : Optional [ Dict [ Any , Any ]] = None
    schema_dict : Optional [ Dict [ str , Any ]] = None


class VDFMeta ( BaseModel ):
    version : str
    file_structure : List [ str ]
    author : str
    exported_from : str
    indexes : Dict [ str , List [ NamespaceMeta ]]
    exported_at : str
    id_column : Optional [ str ] = None

Archivos/carpetas de parquet para metadatos y vectores.

Guión de exportación

export_vdf --help
usage: export_vdf [-h] [-m MODEL_NAME]
                  [--max_file_size MAX_FILE_SIZE]
                  [--push_to_hub | --no-push_to_hub]
                  [--public | --no-public]
                  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
                  ...

Export data from various vector databases to the VDF format for vector datasets

options:
  -h, --help            show this help message and exit
  -m MODEL_NAME, --model_name MODEL_NAME
                        Name of model used
  --max_file_size MAX_FILE_SIZE
                        Maximum file size in MB (default:
                        1024)
  --push_to_hub, --no-push_to_hub
                        Push to hub
  --public, --no-public
                        Make dataset public (default:
                        False)

Vector Databases:
  Choose the vectors database to export data from

  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
    pinecone            Export data from Pinecone
    qdrant              Export data from Qdrant
    kdbai               Export data from KDB.AI
    milvus              Export data from Milvus
    vertexai_vectorsearch
                        Export data from Vertex AI Vector
                        Search

Importar guión

import_vdf --help
usage: import_vdf [-h] [-d DIR] [-s | --subset | --no-subset]
                  [--create_new | --no-create_new]
                  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
                  ...

Import data from VDF to a vector database

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory to import
  -s, --subset, --no-subset
                        Import a subset of data (default: False)
  --create_new, --no-create_new
                        Create a new index (default: False)

Vector Databases:
  Choose the vectors database to export data from

  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
    milvus              Import data to Milvus
    pinecone            Import data to Pinecone
    qdrant              Import data to Qdrant
    vertexai_vectorsearch
                        Import data to Vertex AI Vector Search
    kdbai               Import data to KDB.AI

Script reembolsado

Este script de Python se usa para volver a arrebrar un conjunto de datos vectorial. Se necesita un directorio del conjunto de datos de vectores en el formato VDF y lo reembolsa utilizando un nuevo modelo. El script también le permite especificar el nombre de la columna que contiene texto a incrustarse.

reembed_vdf --help
usage: reembed_vdf [-h] -d DIR [-m NEW_MODEL_NAME]
                  [-t TEXT_COLUMN]

Reembed a vector dataset

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory of vector dataset in
                        the VDF format
  -m NEW_MODEL_NAME, --new_model_name NEW_MODEL_NAME
                        Name of new model to be used
  -t TEXT_COLUMN, --text_column TEXT_COLUMN
                        Name of the column containing
                        text to be embedded

Ejemplos

export_vdf -m hkunlp/instructor-xl --push_to_hub pinecone --environment gcp-starter

import_vdf -d /path/to/vdf/dataset milvus

reembed_vdf -d /path/to/vdf/dataset -m sentence-transformers/all-MiniLM-L6-v2 -t title

Siga el indicador para seleccionar el índice y el rango de identificación para exportar.

Que contribuye

Agregar una nueva base de datos vectorial

Si desea agregar una implementación de importación/exportación para una nueva base de datos Vector, también debe implementar el otro lado de la importación/exportación para la misma base de datos. Bifurca el repositorio y envíe un PR para los scripts de importación y exportación.

Pasos para agregar una nueva base de datos Vector (ABC):

Agregue el nombre de su base de datos en src/vdf_io/names.py en la clase DBNames Enum.
Cree nuevos archivos src/vdf_io/export_vdf/export_abc.py y src/vdf_io/import_vdf/import_abc.py para el nuevo DB.

Exportar :

En su archivo de exportación, defina una clase exportABC que hereda de exportvdf.
Especificar un db_name_slug para la clase
La clase debe implementar:
1. función make_parser () para agregar argumentos específicos de la base de datos al CLI export_vdf
2. Export_vdb () función para solicitar al usuario para obtener información que no se proporcione en la CLI. Luego debe llamar a la función get_data ().
3. Función get_data () para descargar puntos (de manera lota) con todos los metadatos del índice especificado de la base de datos Vector. Estos datos deben almacenarse en una serie de archivos/carpetas parquet. Los metadatos deben almacenarse en un archivo JSON con el esquema anterior.
Use el script para exportar datos de un índice de ejemplo de la base de datos Vector y verificar que los datos se exporten correctamente.

Importar :

En su archivo de importación, defina una clase ImportABC que herede de importvdf.
Especificar un db_name_slug para la clase
La clase debe implementar:
1. Función Make_Parser () para agregar argumentos específicos de la base de datos al CLI import_vdf, como la URL de la base de datos, cualquier tokens de autenticación, etc.
2. importe_vdb () función para solicitar al usuario para obtener información que no se proporcione en la CLI. Luego debe llamar a la función upsert_data ().
3. Función upsert_data () para cargar puntos de un conjunto de datos VDF (de manera llagada) con todos los metadatos al índice especificado de la base de datos de vector. Todos los metadatos sobre el conjunto de datos deben leerse desde el archivo vdf_meta.json en la carpeta VDF.
Use el script para importar datos del conjunto de datos VDF exportado en el paso anterior y verifique que los datos se importen correctamente.

Cambiar la especificación de VDF

Si desea cambiar la especificación VDF, abra un problema para discutir el cambio antes de enviar un PR.

Mejoras de eficiencia

Si desea mejorar la eficiencia de los scripts de importación/exportación, bifurca el repositorio y envía un PR.

Telemetría

Ejecutar los scripts en el repositorio enviará datos de uso anónimo a AI Northstar Tech para ayudar a mejorar la biblioteca.

Puede optar por salir estableciendo la variable de entorno DISABLE_TELEMETRY_VECTORIO a 1 .

Preguntas

Si tiene alguna pregunta, abra un problema en el repositorio o el mensaje dhruv anand en LinkedIn

Colaboradores

_{Dhruv anand}
?

_{Jayesh Rathi}

_{Jordan Totten}

Expandir

vector io

Bases de datos vectoriales compatibles

Instalación

Usando Pip

De la fuente

Especificación de formato de conjunto de datos de vector universal (VDF)

Guión de exportación

Importar guión

Script reembolsado

Ejemplos

Que contribuye

Agregar una nueva base de datos vectorial

Cambiar la especificación de VDF

Mejoras de eficiencia

Telemetría

Preguntas

Colaboradores

Stick War io última versión (Stick War io)

Juego Punko io

Juego io estatal

Boas io serpiente

Juegos de cosecha io

tsunamiio

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express