Download vector io - vector io -fonte download

Esta biblioteca usa um formato universal para conjuntos de dados vetoriais para exportar e importar facilmente dados de todos os bancos de dados do vetor.

Solicite o apoio a um vectordb votando/comentando nesta enquete

Consulte a seção contribuinte para adicionar suporte ao seu banco de dados vetorial favorito.

Bancos de dados vetoriais suportados

Totalmente suportado

Banco de dados vetorial	Importar	Exportar
Pinecone	✅	✅
QDRANT	✅	✅
Milvus	✅	✅
Pesquisa de vetor de Ai do vértice do GCP	✅	✅
Kdb.ai	✅	✅
Lancedb	✅	✅
DataStax Astra DB	✅	✅
Chroma	✅	✅
Turbopuffer	✅	✅

Parcial

Banco de dados vetorial	Importar	Exportar

Em andamento

Banco de dados vetorial	Importar	Exportar
Azure AI Search
Tecelava
Atlas MongoDB
OpenSearch
Apache Cassandra
txtai
PGVECTOR
SQLITE-VSS

Não suportado

Banco de dados vetorial	Importar	Exportar
Vespa
Marqo
Elasticsearch
Pesquisa de Redis
Clickhouse
Pesquisa
Rockset
Epsilla
ActiveLoop Deep Lake
Apertoubb
CratedB
Meilisearch
MyScale
Neo4j
Nuclia db
Oramasearch
TieSens
Anari ai
Vald
Apache Solr

Instalação

Usando pip

pip install vdf-io

Da fonte

git clone https://github.com/AI-Northstar-Tech/vector-io.git
cd vector-io
pip install -r requirements.txt

Especificação do DataSet de Vector Universal (VDF)

Vdf_meta.json: é um arquivo json com o seguinte esquema vdfmeta definido em src/vdf_io/meta_types.py:

 class NamespaceMeta ( BaseModel ):
    namespace : str
    index_name : str
    total_vector_count : int
    exported_vector_count : int
    dimensions : int
    model_name : str | None = None
    vector_columns : List [ str ] = [ "vector" ]
    data_path : str
    metric : str | None = None
    index_config : Optional [ Dict [ Any , Any ]] = None
    schema_dict : Optional [ Dict [ str , Any ]] = None


class VDFMeta ( BaseModel ):
    version : str
    file_structure : List [ str ]
    author : str
    exported_from : str
    indexes : Dict [ str , List [ NamespaceMeta ]]
    exported_at : str
    id_column : Optional [ str ] = None

Arquivos/pastas parquet para metadados e vetores.

Script de exportação

export_vdf --help
usage: export_vdf [-h] [-m MODEL_NAME]
                  [--max_file_size MAX_FILE_SIZE]
                  [--push_to_hub | --no-push_to_hub]
                  [--public | --no-public]
                  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
                  ...

Export data from various vector databases to the VDF format for vector datasets

options:
  -h, --help            show this help message and exit
  -m MODEL_NAME, --model_name MODEL_NAME
                        Name of model used
  --max_file_size MAX_FILE_SIZE
                        Maximum file size in MB (default:
                        1024)
  --push_to_hub, --no-push_to_hub
                        Push to hub
  --public, --no-public
                        Make dataset public (default:
                        False)

Vector Databases:
  Choose the vectors database to export data from

  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
    pinecone            Export data from Pinecone
    qdrant              Export data from Qdrant
    kdbai               Export data from KDB.AI
    milvus              Export data from Milvus
    vertexai_vectorsearch
                        Export data from Vertex AI Vector
                        Search

Script de importação

import_vdf --help
usage: import_vdf [-h] [-d DIR] [-s | --subset | --no-subset]
                  [--create_new | --no-create_new]
                  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
                  ...

Import data from VDF to a vector database

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory to import
  -s, --subset, --no-subset
                        Import a subset of data (default: False)
  --create_new, --no-create_new
                        Create a new index (default: False)

Vector Databases:
  Choose the vectors database to export data from

  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
    milvus              Import data to Milvus
    pinecone            Import data to Pinecone
    qdrant              Import data to Qdrant
    vertexai_vectorsearch
                        Import data to Vertex AI Vector Search
    kdbai               Import data to KDB.AI

REEMBED SCRIPT

Este script Python é usado para reembonte de um conjunto de dados de vetor. É necessário um diretório de conjunto de dados vetoriais no formato VDF e o reembolsou usando um novo modelo. O script também permite especificar o nome da coluna que contém o texto a ser incorporado.

reembed_vdf --help
usage: reembed_vdf [-h] -d DIR [-m NEW_MODEL_NAME]
                  [-t TEXT_COLUMN]

Reembed a vector dataset

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory of vector dataset in
                        the VDF format
  -m NEW_MODEL_NAME, --new_model_name NEW_MODEL_NAME
                        Name of new model to be used
  -t TEXT_COLUMN, --text_column TEXT_COLUMN
                        Name of the column containing
                        text to be embedded

Exemplos

export_vdf -m hkunlp/instructor-xl --push_to_hub pinecone --environment gcp-starter

import_vdf -d /path/to/vdf/dataset milvus

reembed_vdf -d /path/to/vdf/dataset -m sentence-transformers/all-MiniLM-L6-v2 -t title

Siga o prompt para selecionar o índice e o intervalo de ID para exportar.

Contribuindo

Adicionando um novo banco de dados vetorial

Se você deseja adicionar uma implementação de importação/exportação para um novo banco de dados vetorial, também deve implementar o outro lado da importação/exportação para o mesmo banco de dados. Por favor, pegue o repositório e envie um PR para os scripts de importação e exportação.

Etapas para adicionar um novo banco de dados vetorial (ABC):

Adicione o nome do seu banco de dados em src/vdf_io/names.py na classe DBNames Enum.
Crie novos arquivos src/vdf_io/export_vdf/export_abc.py e src/vdf_io/import_vdf/import_abc.py para o novo DB.

Exportação :

No seu arquivo de exportação, defina uma classe ExportABC que herda do exportVDF.
Especifique um db_name_slug para a classe
A classe deve implementar:
1. função make_parser () para adicionar argumentos específicos do banco de dados à CLI export_vdf
2. Função export_vdb () para solicitar as informações do usuário não fornecidas na CLI. Deve então chamar a função get_data ().
3. Função get_data () para baixar pontos (de maneira lutada) com todos os metadados do índice especificado do banco de dados vetorial. Esses dados devem ser armazenados em uma série de arquivos/pastas parquet. Os metadados devem ser armazenados em um arquivo JSON com o esquema acima.
Use o script para exportar dados de um exemplo de índice do banco de dados vetorial e verifique se os dados são exportados corretamente.

Importação :

No seu arquivo de importação, defina uma classe importabc que herda do importVDF.
Especifique um db_name_slug para a classe
A classe deve implementar:
1. Função make_parser () para adicionar argumentos específicos do banco de dados à CLI import_vdf, como o URL do banco de dados, quaisquer tokens de autenticação, etc.
2. Função import_vdb () para solicitar as informações do usuário não fornecidas na CLI. Deve então chamar a função upsert_data ().
3. UPSERT_DATA () Função para fazer upload de pontos de um conjunto de dados VDF (de maneira lutada) com todos os metadados para o índice especificado do banco de dados vetorial. Todos os metadados sobre o conjunto de dados devem ser lidos no arquivo vdf_meta.json na pasta VDF.
Use o script para importar dados do exemplo do conjunto de dados VDF exportado na etapa anterior e verifique se os dados são importados corretamente.

Alterando a especificação VDF

Se você deseja alterar a especificação do VDF, abra um problema para discutir a alteração antes de enviar um PR.

Melhorias de eficiência

Se você deseja melhorar a eficiência dos scripts de importação/exportação, bire o repositório e envie um PR.

Telemetria

A execução dos scripts no repositório enviará dados de uso anônimo para a AI Northstar Tech para ajudar a melhorar a biblioteca.

Você pode optar por isso definindo a variável de ambiente DISABLE_TELEMETRY_VECTORIO como 1 .

Questões

Se você tiver alguma dúvida, abra um problema no repo ou mensagem Dhruv Anand no LinkedIn

Colaboradores

_{Dhruv Anand}
?

_{Jayesh Rathi}

_{Jordan Totten}

Expandir

vector io

Bancos de dados vetoriais suportados

Instalação

Usando pip

Da fonte

Especificação do DataSet de Vector Universal (VDF)

Script de exportação

Script de importação

REEMBED SCRIPT

Exemplos

Contribuindo

Adicionando um novo banco de dados vetorial

Alterando a especificação VDF

Melhorias de eficiência

Telemetria

Questões

Colaboradores

Versão mais recente do Stick War io (Stick War io)

Jogo Punko io

Jogo io estadual

Boas io Snake

Colha jogos io

tsunami

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express