VectorETLダウンロードVectorETLソースコードのダウンロード

VectorETL：ベクトルデータベースの軽量ETLフレームワーク

コンテキストデータによるVectorETLは、データとAIエンジニアがAIアプリケーションのデータをわずか数分で処理できるように設計されたモジュラーフレームワークです。

VectorEtlは、さまざまなデータソースをベクトル埋め込みに変換し、さまざまなベクターデータベースに保存するプロセスを合理化します。複数のデータソース（データベース、クラウドストレージ、ローカルファイル）、さまざまな埋め込みモデル（Openai、Cohere、Google Geminiを含む）、およびいくつかのベクトルデータベースターゲット（Pinecone、Qdrant、Weaviateなど）をサポートします。

このパイプラインは、ベクトル検索システムの作成と管理を簡素化することを目的としており、開発者とデータサイエンティストがセマンティック検索、推奨システム、またはその他のベクターベースの操作を必要とするアプリケーションを簡単に構築および拡張できるようにすることを目的としています。

特徴

複数のデータソース、埋め込みモデル、ベクターデータベースをサポートするモジュラーアーキテクチャ
大規模なデータセットの効率的な取り扱いのためのバッチ処理
テキストデータの構成可能なチャンクとオーバーラップ
新しいデータソース、埋め込みモデル、ベクターデータベースの簡単な統合

ドキュメント

VectorETL End-to-End Flow

コンテンツの表

インストール
使用法
プロジェクトの概要
構成
- ソース構成
- 非構造化を使用してソースファイルを処理します
- 埋め込み構成
- ターゲット構成
貢献
例
ドキュメント

1。インストール

pip install --upgrade vector-etl

または

pip install git+https://github.com/ContextData/VectorETL.git

2。使用法

このセクションでは、VectorデータベースにETLフレームワークを使用する方法に関する指示を提供します。実行、検証の実行、いくつかの一般的な使用例を提供します。

オプション1：VectorETLをPythonアプリケーションにインポートします（YAML構成ファイルを使用）

以下のファイルに似た構成ファイルがあると仮定します。

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " customer_data "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM customers WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : ${OPENAI_API_KEY}
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : ${PINECONE_API_KEY}
  index_name : " customer-embeddings "
  dimension : 1536
  metric : " cosine "

embed_columns :
  - " customer_name "
  - " customer_description "
  - " purchase_history "

その後、構成をPythonプロジェクトにインポートし、そこから自動的に実行できます

 from vector_etl import create_flow

flow = create_flow ()
flow . load_yaml ( '/path/to/your/config.yaml' )
flow . execute ()

オプション2：構成ファイルを使用してコマンドラインから実行

上記のオプション2から同じYAML構成ファイルを使用すると、Pythonアプリケーションにインポートすることなく、コマンドラインからプロセスを直接実行できます。

ETLフレームワークを実行するには、次のコマンドを使用します。

vector-etl -c /path/to/your/config.yaml

オプション3：VectorETLをPythonアプリケーションにインポートします

 from vector_etl import create_flow

source = {
    "source_data_type" : "database" ,
    "db_type" : "postgres" ,
    "host" : "localhost" ,
    "port" : "5432" ,
    "database_name" : "test" ,
    "username" : "user" ,
    "password" : "password" ,
    "query" : "select * from test" ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0 ,
}

embedding = {
    "embedding_model" : "OpenAI" ,
    "api_key" : ${ OPENAI_API_KEY },
    "model_name" : "text-embedding-ada-002"
}

target = {
    "target_database" : "Pinecone" ,
    "pinecone_api_key" : ${ PINECONE_API_KEY },
    "index_name" : "my-pinecone-index" ,
    "dimension" : 1536
}

embed_columns = [ "customer_name" , "customer_description" , "purchase_history" ]

flow = create_flow ()
flow . set_source ( source )
flow . set_embedding ( embedding )
flow . set_target ( target )
flow . set_embed_columns ( embed_columns )

# Execute the flow
flow . execute ()

一般的な使用例

さまざまなシナリオにETLフレームワークを使用する方法の例をいくつか紹介します。

1。PostgreSQLデータベースからPineconeへのデータの処理

vector-etl -c config/postgres_to_pinecone.yaml

postgres_to_pinecone.yaml次のように見えるかもしれません。

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " customer_data "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM customers WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : ${OPENAI_API_KEY}
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : ${PINECONE_API_KEY}
  index_name : " customer-embeddings "
  dimension : 1536
  metric : " cosine "

embed_columns :
  - " customer_name "
  - " customer_description "
  - " purchase_history "

2。S3からQDrantまでのCSVファイルの処理

vector-etl -c config/s3_to_qdrant.yaml

s3_to_qdrant.yaml次のように見えるかもしれません。

 source :
  source_data_type : " Amazon S3 "
  bucket_name : " my-data-bucket "
  prefix : " customer_data/ "
  file_type : " csv "
  aws_access_key_id : ${AWS_ACCESS_KEY_ID}
  aws_secret_access_key : ${AWS_SECRET_ACCESS_KEY}
  chunk_size : 1000
  chunk_overlap : 200

embedding :
  embedding_model : " Cohere "
  api_key : ${COHERE_API_KEY}
  model_name : " embed-english-v2.0 "

target :
  target_database : " Qdrant "
  qdrant_url : " https://your-qdrant-cluster-url.qdrant.io "
  qdrant_api_key : ${QDRANT_API_KEY}
  collection_name : " customer_embeddings "

embed_columns : []

3.プロジェクトの概要

VectorETL（抽出、変換、負荷）フレームワークは、さまざまなソースからデータを抽出し、ベクターの埋め込みに変換し、これらの埋め込みをさまざまなベクトルデータベースにロードするプロセスを合理化するために設計された強力で柔軟なツールです。

モジュール性、スケーラビリティ、および使いやすさを念頭に置いて構築されているため、データインフラストラクチャのベクトル検索の力を活用しようとする組織にとって理想的なソリューションとなっています。

重要な側面：

汎用性のあるデータ抽出：フレームワークは、従来のデータベース、クラウドストレージソリューション（Amazon S3やGoogle Cloud Storageなど）、人気のSaaSプラットフォーム（StripeやZendeskなど）など、幅広いデータソースをサポートしています。この汎用性により、複数のソースからのデータを統一されたベクトルデータベースに統合できます。
高度なテキスト処理：テキストデータの場合、フレームワークは洗練されたチャンクと重複手法を実装します。これにより、ベクトル埋め込みを作成するときにテキストのセマンティックコンテキストが保存され、より正確な検索結果につながることが保証されます。
最先端の埋め込みモデル：システムは、Openai、Cohere、Google Gemini、Azure Openaiなどの主要な埋め込みモデルと統合されています。これにより、特定のユースケースと品質要件に最適な埋め込みモデルを選択できます。
複数のベクトルデータベースサポート：Pinecone、Qdrant、Weaviate、Singlestore、Supabase、またはLancedBを使用しているかどうかにかかわらず、このフレームワークで説明しています。これらの一般的なベクトルデータベースとシームレスにインターフェイスするように設計されており、ニーズに最適なデータベースを選択できるようになります。
構成可能で拡張可能：フレームワーク全体は、YAMLまたはJSON構成ファイルを介して高度に構成可能です。さらに、そのモジュラーアーキテクチャにより、ニーズが進化するにつれて、新しいデータソース、埋め込みモデル、またはベクターデータベースを簡単に拡張できます。

このETLフレームワークは、ベクトル検索機能を実装またはアップグレードしようとする組織に最適です。

データの抽出プロセスを自動化し、ベクトル埋め込みを作成し、ベクターデータベースに保存することにより、このフレームワークは、ベクター検索システムのセットアップに伴う時間と複雑さを大幅に削減します。データ科学者とエンジニアは、データ処理とベクターストレージの複雑さを心配するのではなく、洞察とアプリケーションの構築に集中できるようになります。

4。構成

ETLフレームワークは、構成ファイルを使用して、ソース、埋め込みモデル、ターゲットデータベース、およびその他のパラメーターの詳細を指定します。構成ファイルにYAMLまたはJSON形式のいずれかを使用できます。

構成ファイル構造

構成ファイルは、3つの主要なセクションに分割されます。

source ：データソースの詳細を指定します
embedding ：使用する埋め込みモデルを定義します
target ：ターゲットベクトルデータベースの概要を説明します
embed_columns ：埋め込まれる必要がある列を定義します（主に構造化されたデータソース用）

構成の例

VectorETLをPythonアプリケーションにインポートします

 from vector_etl import create_flow

source = {
    "source_data_type" : "database" ,
    "db_type" : "postgres" ,
    "host" : "localhost" ,
    "port" : "5432" ,
    "database_name" : "test" ,
    "username" : "user" ,
    "password" : "password" ,
    "query" : "select * from test" ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0 ,
}

embedding = {
    "embedding_model" : "OpenAI" ,
    "api_key" : ${ OPENAI_API_KEY },
    "model_name" : "text-embedding-ada-002"
}

target = {
    "target_database" : "Pinecone" ,
    "pinecone_api_key" : ${ PINECONE_API_KEY },
    "index_name" : "my-pinecone-index" ,
    "dimension" : 1536
}

embed_columns = [ "customer_name" , "customer_description" , "purchase_history" ]

スタンドアロンYAMLファイル構成（例：config.yaml）

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " mydb "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM mytable WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : " your-openai-api-key "
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : " your-pinecone-api-key "
  index_name : " my-index "
  dimension : 1536
  metric : " cosine "
  cloud : " aws "
  region : " us-west-2 "

embed_columns :
  - " column1 "
  - " column2 "
  - " column3 "

スタンドアロンJSONファイル構成（例：config.json）

{
  "source" : {
    "source_data_type" : " database " ,
    "db_type" : " postgres " ,
    "host" : " localhost " ,
    "database_name" : " mydb " ,
    "username" : " user " ,
    "password" : " password " ,
    "port" : 5432 ,
    "query" : " SELECT * FROM mytable WHERE updated_at > :last_updated_at " ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0
  },

  "embedding" : {
    "embedding_model" : " OpenAI " ,
    "api_key" : " your-openai-api-key " ,
    "model_name" : " text-embedding-ada-002 "
  },

  "target" : {
    "target_database" : " Pinecone " ,
    "pinecone_api_key" : " your-pinecone-api-key " ,
    "index_name" : " my-index " ,
    "dimension" : 1536 ,
    "metric" : " cosine " ,
    "cloud" : " aws " ,
    "region" : " us-west-2 "
  },

  "embed_columns" : [ " column1 " , " column2 " , " column3 " ]
}

構成セクションが説明されています

ソース構成

sourceセクションは、 source_data_typeに基づいて異なります。さまざまなソースタイプの例を次に示します。

データベースソース

{
  "source_data_type" : " database " ,
  "db_type" : " postgres " ,  # or "mysql", "snowflake", "salesforce"
  "host" : " localhost " ,
  "database_name" : " mydb " ,
  "username" : " user " ,
  "password" : " password " ,
  "port" : 5432 ,
  "query" : " SELECT * FROM mytable WHERE updated_at > :last_updated_at " ,
  "batch_size" : 1000 ,
  "chunk_size" : 1000 ,
  "chunk_overlap" : 0
}

 source :
  source_data_type : " database "
  db_type : " postgres "  # or "mysql", "snowflake", "salesforce"
  host : " localhost "
  database_name : " mydb "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM mytable WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

S3ソース

{
  "source_data_type" : " Amazon S3 " ,
  "bucket_name" : " my-bucket " ,
  "key" : " path/to/files/ " ,
  "file_type" : " .csv " ,
  "aws_access_key_id" : " your-access-key " ,
  "aws_secret_access_key" : " your-secret-key "
}

 source :
  source_data_type : " Amazon S3 "
  bucket_name : " my-bucket "
  key : " path/to/files/ "
  file_type : " .csv "
  aws_access_key_id : " your-access-key "
  aws_secret_access_key : " your-secret-key "

Google Cloud Storage（GCS）ソース

{
  "source_data_type" : " Google Cloud Storage " ,
  "credentials_path" : " /path/to/your/credentials.json " ,
  "bucket_name" : " myBucket " ,
  "prefix" : " prefix/ " ,
  "file_type" : " csv " ,
  "chunk_size" : 1000 ,
  "chunk_overlap" : 0
}

 source :
  source_data_type : " Google Cloud Storage "
  credentials_path : " /path/to/your/credentials.json "
  bucket_name : " myBucket "
  prefix : " prefix/ "
  file_type : " csv "
  chunk_size : 1000
  chunk_overlap : 0

非構造化を使用してソースファイルを処理します

バージョン0.1.6.3から始めて、ユーザーは非構造化されたサーバーレスAPIを利用して、多数のファイルベースのソースからデータを効率的に抽出できるようになりました。

注：これは、構造化されていない無セブレスAPIに限定されており、非構造化されたオープンソースフレームワークには使用しないでください

これは[PDF、DOCX、DOC、TXT]ファイルに限定されています

非構造化を使用するには、3つの追加パラメーターが必要になります

use_unstructured ：（ true/false）インジケータ非構造化されたAPIを使用するようにフレームワークを伝える
unstructured_api_key ：非構造化されたAPIキーを入力します
unstructured_url ：非構造化ダッシュボードからAPI URLを入力します

 # Example using Local file
source :
  source_data_type : " Local File "
  file_path : " /path/to/file.docx "
  file_type : " docx "
  use_unstructured : True
  unstructured_api_key : ' my-unstructured-key '
  unstructured_url : ' https://my-domain.api.unstructuredapp.io '

# Example using Amazon S3
source :
  source_data_type : " Amazon S3 "
  bucket_name : " myBucket "
  prefix : " Dir/Subdir/ "
  file_type : " pdf "
  aws_access_key_id : " your-access-key "
  aws_secret_access_key : " your-secret-access-key "
  use_unstructured : True
  unstructured_api_key : ' my-unstructured-key '
  unstructured_url : ' https://my-domain.api.unstructuredapp.io '

埋め込み構成

embeddingセクションは、使用する埋め込みモデルを指定します。

 embedding :
  embedding_model : " OpenAI "  # or "Cohere", "Google Gemini", "Azure OpenAI", "Hugging Face"
  api_key : " your-api-key "
  model_name : " text-embedding-ada-002 "  # model name varies by provider

ターゲット構成

targetセクションは、選択したベクトルデータベースに基づいて異なります。これがPineconeの例です。

 target :
  target_database : " Pinecone "
  pinecone_api_key : " your-pinecone-api-key "
  index_name : " my-index "
  dimension : 1536
  metric : " cosine "
  cloud : " aws "
  region : " us-west-2 "

埋め込まれた列

embed_columnsリストは、ソースデータのどの列を使用して埋め込みを生成する必要があるかを指定します（今のところデータベースソースにのみ適用されます）。

 embed_columns :
  - " column1 "
  - " column2 "
  - " column3 "

embed_columnsリストは、構造化されたデータソースにのみ必要です（例：postgresql、mysql、snowflake）。他のすべてのソースについては、空のリストを使用します

 embed_columns : []

機密情報の処理

APIキーやパスワードなどの機密情報を保護するには、環境変数または安全な秘密管理システムの使用を検討してください。その後、構成ファイルでこれらを参照できます。

 embedding :
  api_key : ${OPENAI_API_KEY}

これにより、機密データを公開せずに構成ファイルをバージョン制御に保持できます。

特定のデータソース、埋め込みモデル、ターゲットデータベースに基づいて構成を調整することを忘れないでください。各サービスのドキュメントを参照して、必要なすべてのパラメーターを提供していることを確認してください。

5。寄稿

VectorデータベースのETLフレームワークへの貢献を歓迎します！バグを修正したり、ドキュメントを改善したり、新機能を提案したりしても、あなたの努力は高く評価されています。貢献する方法は次のとおりです。

報告の問題

バグに遭遇した場合、またはETLフレームワークを改善するための提案がある場合：

GitHubの問題を確認して、問題や提案がすでに報告されているかどうかを確認してください。
そうでない場合は、新しい問題を開きます。明確なタイトルと説明、およびできるだけ多くの関連情報を提供します。
- 複製する手順（バグ用）
- 予想される動作
- 実際の動作
- オペレーティングシステムとPythonバージョン
- 構成ファイルの関連部分（機密情報を削除することを忘れないでください）

強化を提案します

ETLフレームワークを改善する方法を常に探しています。あなたがアイデアを持っているなら：

Githubで新しい問題を開きます。
明確で説明的なタイトルを使用します。
提案された強化の詳細な説明を提供します。
この強化がほとんどのユーザーにとって役立つ理由を説明してください。

リクエストをプルします

私たちはあなたのプルリクエストを積極的に歓迎します：

レポをフォークし、 mainからブランチを作成します。
テストする必要があるコードを追加した場合は、テストを追加します。
APIを変更した場合は、ドキュメントを更新してください。
テストスイートパスを確認してください。
コードが既存のスタイルの規則に従っていることを確認してください（以下のコーディング基準を参照）。
そのプル要求を発行します！

コーディング基準

プロジェクト全体で一貫性を維持するために、これらのコーディング基準を遵守してください。

PythonコードのPEP 8スタイルガイドをフォローしてください。
意味のある変数名を使用して、必要に応じてコメントを追加します。
すべての機能、クラス、およびモジュールのドキュストリングを作成します。
関数を小さく保ち、単一のタスクに焦点を合わせます。
タイプのヒントを使用して、コードの読みやすさを改善し、潜在的なタイプ関連エラーをキャッチします。

ドキュメント

ドキュメントの改善は常に高く評価されています。

ドキュメントにタイプミスまたはエラーが見つかった場合は、修正を受けてプルリクエストを送信してください。
ドキュメントの大幅な変更については、最初に問題を開いて、提案された変更について議論してください。

新機能の追加

新機能の追加を考えている場合：

開発を開始する前に、機能について議論する問題を開きます。
新しいデータソースの場合：
- source_modsディレクトリに新しいファイルを追加します。
- 基本クラスで定義されている必要な方法を実装します。
- source_mods/__init__.pyでget_source_class関数を更新します。
新しい埋め込みモデルの場合：
- embedding_modsディレクトリに新しいファイルを追加します。
- 基本クラスで定義されている必要な方法を実装します。
- embedding_mods/__init__.pyでget_embedding_model関数を更新します。
新しいベクトルデータベースの場合：
- target_modsディレクトリに新しいファイルを追加します。
- 基本クラスで定義されている必要な方法を実装します。
- get_target_database関数をtarget_mods/__init__.pyで更新します。

テスト

新機能またはバグの修正については、ユニットテストを記述します。
プルリクエストを送信する前に、すべてのテストが合格していることを確認してください。
特にコードベースの重要な部分については、高いテストカバレッジを目指します。

メッセージをコミットします

明確で意味のあるコミットメッセージを使用します。
短い要約（最大50文字）でコミットメッセージを開始します。
必要に応じて、後続の行でより詳細な説明を提供します。

レビュープロセス

プロジェクトメンバーによる提出を含むすべての提出物は、レビューが必要です。
この目的のためにGitHub Pullリクエストを使用します。
レビュー担当者は、プルリクエストをマージする前に変更を要求する場合があります。

コミュニティ（Discord）

すべてのユーザーがDiscord Serverに参加して、コンテキストデータ開発チームやその他の貢献者と協力して、アップグレード、新しい統合、問題を提案することをお勧めします。

拡大する