vector ioダウンロード-Vector vector ioソースコードのダウンロード

このライブラリは、ベクトルデータセットのユニバーサル形式を使用して、すべてのベクトルデータベースからデータを簡単にエクスポートおよびインポートします。

この世論調査に投票/コメントすることにより、VectordBのサポートをリクエストする

お気に入りのベクターデータベースのサポートを追加するには、貢献セクションを参照してください。

サポートされているベクトルデータベース

完全にサポートされています

ベクトルデータベース	輸入	輸出
松ぼっくり	✅	✅
qdrant	✅	✅
ミルバス	✅	✅
GCP頂点AIベクター検索	✅	✅
kdb.ai	✅	✅
lancedb	✅	✅
DataStax Astra DB	✅	✅
彩度	✅	✅
ターボパッファ	✅	✅

部分的

ベクトルデータベース	輸入	輸出

進行中

ベクトルデータベース	輸入	輸出
Azure AI検索
織ります
Mongodb Atlas
OpenSearch
Apache Cassandra
Txtai
pgvector
sqlite-vss

サポートされていません

ベクトルデータベース	輸入	輸出
Vespa
マルコ
ElasticSearch
Redis検索
クリックハウス
Usearch
ロックセット
epsilla
Activeloop Deep Lake
aperturedB
cratedb
Meilisearch
マイスケール
neo4j
ヌクリアdb
Oramasearch
タイプセンス
アナリai
バルド
Apache solr

インストール

PIPを使用します

pip install vdf-io

ソースから

git clone https://github.com/AI-Northstar-Tech/vector-io.git
cd vector-io
pip install -r requirements.txt

ユニバーサルベクトルデータセット形式（VDF）仕様

VDF_META.JSON：これは、src/vdf_io/meta_types.pyで定義されている次のスキーマVDFMETAを備えたJSONファイルです。

 class NamespaceMeta ( BaseModel ):
    namespace : str
    index_name : str
    total_vector_count : int
    exported_vector_count : int
    dimensions : int
    model_name : str | None = None
    vector_columns : List [ str ] = [ "vector" ]
    data_path : str
    metric : str | None = None
    index_config : Optional [ Dict [ Any , Any ]] = None
    schema_dict : Optional [ Dict [ str , Any ]] = None


class VDFMeta ( BaseModel ):
    version : str
    file_structure : List [ str ]
    author : str
    exported_from : str
    indexes : Dict [ str , List [ NamespaceMeta ]]
    exported_at : str
    id_column : Optional [ str ] = None

メタデータおよびベクター用の寄木細工ファイル/フォルダー。

エクスポートスクリプト

export_vdf --help
usage: export_vdf [-h] [-m MODEL_NAME]
                  [--max_file_size MAX_FILE_SIZE]
                  [--push_to_hub | --no-push_to_hub]
                  [--public | --no-public]
                  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
                  ...

Export data from various vector databases to the VDF format for vector datasets

options:
  -h, --help            show this help message and exit
  -m MODEL_NAME, --model_name MODEL_NAME
                        Name of model used
  --max_file_size MAX_FILE_SIZE
                        Maximum file size in MB (default:
                        1024)
  --push_to_hub, --no-push_to_hub
                        Push to hub
  --public, --no-public
                        Make dataset public (default:
                        False)

Vector Databases:
  Choose the vectors database to export data from

  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
    pinecone            Export data from Pinecone
    qdrant              Export data from Qdrant
    kdbai               Export data from KDB.AI
    milvus              Export data from Milvus
    vertexai_vectorsearch
                        Export data from Vertex AI Vector
                        Search

スクリプトをインポートします

import_vdf --help
usage: import_vdf [-h] [-d DIR] [-s | --subset | --no-subset]
                  [--create_new | --no-create_new]
                  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
                  ...

Import data from VDF to a vector database

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory to import
  -s, --subset, --no-subset
                        Import a subset of data (default: False)
  --create_new, --no-create_new
                        Create a new index (default: False)

Vector Databases:
  Choose the vectors database to export data from

  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
    milvus              Import data to Milvus
    pinecone            Import data to Pinecone
    qdrant              Import data to Qdrant
    vertexai_vectorsearch
                        Import data to Vertex AI Vector Search
    kdbai               Import data to KDB.AI

再搭載されたスクリプト

このPythonスクリプトは、ベクトルデータセットを再搭載するために使用されます。 VDF形式でVector Datasetのディレクトリを取得し、新しいモデルを使用して再装備します。また、このスクリプトを使用すると、埋め込むテキストを含む列の名前を指定することもできます。

reembed_vdf --help
usage: reembed_vdf [-h] -d DIR [-m NEW_MODEL_NAME]
                  [-t TEXT_COLUMN]

Reembed a vector dataset

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory of vector dataset in
                        the VDF format
  -m NEW_MODEL_NAME, --new_model_name NEW_MODEL_NAME
                        Name of new model to be used
  -t TEXT_COLUMN, --text_column TEXT_COLUMN
                        Name of the column containing
                        text to be embedded

例

export_vdf -m hkunlp/instructor-xl --push_to_hub pinecone --environment gcp-starter

import_vdf -d /path/to/vdf/dataset milvus

reembed_vdf -d /path/to/vdf/dataset -m sentence-transformers/all-MiniLM-L6-v2 -t title

プロンプトに従って、インデックスとID範囲を選択してエクスポートします。

貢献

新しいベクトルデータベースの追加

新しいベクトルデータベースのインポート/エクスポートの実装を追加する場合は、同じデータベースのインポート/エクスポートの反対側を実装する必要があります。リポジトリをフォークして、インポートスクリプトとエクスポートの両方のスクリプトのPRを送信してください。

新しいベクトルデータベース（ABC）を追加する手順：

dbnames enum classにsrc/vdf_io/names.pyにデータベース名を追加します。
新しいファイルsrc/vdf_io/export_vdf/export_abc.pyおよびsrc/vdf_io/import_vdf/import_abc.pyを作成します。

輸出：

エクスポートファイルで、ExportVDFから継承するクラスExportABCを定義します。
クラスにdb_name_slugを指定します
クラスは実装する必要があります。
1. make_parser（）関数export_vdf cliにデータベース固有の引数を追加する
2. export_vdb（）関数CLIで提供されていない情報のユーザーをプロンプトします。次に、get_data（）関数を呼び出す必要があります。
3. get_data（）関数ベクトルデータベースの指定されたインデックスからすべてのメタデータを使用してポイントをダウンロードします。このデータは、一連の寄木細工ファイル/フォルダーに保存する必要があります。メタデータは、上記のスキーマを含むJSONファイルに保存する必要があります。
スクリプトを使用して、ベクトルデータベースの例のインデックスからデータをエクスポートし、データが正しくエクスポートされていることを確認します。

輸入：

インポートファイルで、ImportVDFから継承するクラスImportABCを定義します。
クラスにdb_name_slugを指定します
クラスは実装する必要があります。
1. make_parser（）関数データベースのURL、認証トークンなど、Import_vdf CLIにデータベース固有の引数を追加します。
2. import_vdb（）関数CLIで提供されていない情報のユーザーを求めます。次に、UPSERT_DATA（）関数を呼び出す必要があります。
3. UPSERT_DATA（）関数VDFデータセットから（バッチ付きの方法で）ポイントをすべてのメタデータを使用して、ベクトルデータベースの指定されたインデックスにします。データセットに関するすべてのメタデータは、VDFフォルダーのVDF_META.JSONファイルから読み取る必要があります。
スクリプトを使用して、前のステップでエクスポートされた例VDFデータセットからデータをインポートし、データが正しくインポートされていることを確認します。

VDF仕様の変更

VDF仕様を変更したい場合は、PRを送信する前に変更について議論する問題を開きます。

効率の改善

インポート/エクスポートスクリプトの効率を改善したい場合は、レポをフォークしてPRを送信してください。

テレメトリー

レポでスクリプトを実行すると、匿名の使用データがAI Northstar Techに送信され、ライブラリの改善が役立ちます。

環境変数DISABLE_TELEMETRY_VECTORIO 1に設定することで、これをオプトアウトできます。

質問

ご質問がある場合は、LinkedInでレポまたはメッセージDhruv Anandで問題を開きます

貢献者

_{dhruv anand}
？

_{ジェイシュ・ラティ}

_{ジョーダン・トッテン}

拡大する

vector io

サポートされているベクトルデータベース

インストール

PIPを使用します

ソースから

ユニバーサルベクトルデータセット形式（VDF）仕様

エクスポートスクリプト

スクリプトをインポートします

再搭載されたスクリプト

例

貢献

新しいベクトルデータベースの追加

VDF仕様の変更

効率の改善

テレメトリー

質問

貢献者

Stick War io 最新バージョン (Stick War io)

プンコ・イオ・ゲーム

ステートIOゲーム

ボア・イオ・スネーク

収穫ioゲーム

ツナミオ

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express