faiss_vector_aggregatorのダウンロードfaiss_vector_aggregatorソースコードダウンロード

faiss_vector_aggregator

その他のソースコード

1.0.0

ダウンロード

FAISS Embeddings Aggregation Library

このPythonライブラリは、単一のドキュメントまたはエンティティに関連付けられた複数の埋め込みを単一の代表的な埋め込みに集約するための一連の高度な方法を提供します。単純な平均化からPCAなどの洗練された方法まで、幅広い集約技術をサポートしています。

特徴

単純な平均：埋め込みの算術平均を計算します。
加重平均：埋め込みの加重平均を計算します。
幾何平均：埋め込み（正の値の場合）全体で幾何平均を計算します。
高調波平均：埋め込み（正の値の場合）全体で高調波平均を計算します。
Centroid（K-Means） ：K-Meansクラスタリングを使用して、埋め込みの重心を見つけます。
主成分分析（PCA） ：PCAを使用して、埋め込みを単一の代表的なベクトルに減らします。
中央値：埋め込みの要素ごとの中央値を計算します。
トリミングされた平均：外れ値をトリミングした後の平均を計算します。
最大プーリング：埋め込み全体の各ディメンションの最大値を取得します。
ミンプーリング：埋め込み全体の各ディメンションの最小値を取得します。
エントロピー加重平均：エントロピー（情報コンテンツ）による重量埋め込み。
気配りのあるプーリング：注意メカニズムを使用して、埋め込みを組み合わせるための重みを学習します。
Tukeyのバイウェイト：重量の低い外れ値への堅牢な方法。
模範：平均距離を最小限に抑えることにより、グループを最もよく表す埋め込みを選択します。

インストール

パッケージをインストールするには、PIPを使用できます。

pip install faiss_vector_aggregator

使用法

以下は、ライブラリを使用してさまざまな方法を使用して埋め込みを集約する方法を示す例です。

例1：単純な平均集約

FAISSインデックスに保存されている埋め込みのコレクションがあり、単純な平均化を使用して関連するドキュメントIDでそれらを集約する必要があるとします。

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

パラメーター：
- input_folder ：入力FAISSインデックスとメタデータを含むフォルダーへのパス。
- column_name ：埋め込みを集約するためのメタデータフィールド（例： 'id' ）。
- output_folder ：出力FAISSインデックスとメタデータが保存されるパス。
- method="average" ：集約方法を指定します。

例2：加重平均集約

埋め込みの重みが異なる場合は、加重平均を適用して、特定の埋め込みをより重要にすることができます。

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

パラメーター：
- weights ：各埋め込みに対応する重みのリストまたは配列。
- method="weighted_average" ：加重平均方法を指定します。

例3：主成分分析（PCA）凝集

PCAを使用して、高次元の埋め込みを単一の代表的なベクトルに減らすには：

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

パラメーター：
- method="pca" ：PCAを集約に使用する必要があることを指定します。

例4：Centroidの凝集（K-Means）

K-Meansクラスタリングを使用して、各ドキュメントIDの埋め込みの重心を見つけます。

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

パラメーター：
- method="centroid" ：k-meansクラスタリングを使用する必要があることを指定します。

例5：注意深いプーリング集約

埋め込みを集約するために注意メカニズムを使用するには：

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

パラメーター：
- method="attentive_pooling" ：注意深いプーリング方法を指定します。

集約方法

以下は、ライブラリによってサポートされている各集約方法の詳細な説明です。

平均：埋め込みの算術平均を計算します。
weighted_average ：埋め込みの加重平均を計算します。 weightsが必要です。
geometric_mean ：埋め込み全体で幾何平均を計算します。正の値のみ。
Harmonic_mean ：埋め込み全体で高調波平均を計算します。正の値のみ。
中央値：埋め込みの要素ごとの中央値を計算します。
trimmed_mean ：外れ値の割合をトリミングした後、平均を計算します。 trim_percentageパラメーターを使用します。
Centroid ：K-Meansクラスタリングを使用して、埋め込みの重心を見つけます。
PCA ：主成分分析を使用して、埋め込みを最初の主成分に投影します。
模範：他者への平均コサイン距離を最小限に抑える埋め込みを選択します。
max_pooling ：埋め込み全体の各ディメンションの最大値を取得します。
min_pooling ：埋め込み全体の各ディメンションの最小値を取得します。
Entropy_weighted_average ：エントロピー（情報コンテンツ）による重量埋め込み。
attentive_pooling ：類似性に基づいた注意メカニズムを使用して、埋め込みの集合体にします。
tukeys_biweight ：埋め込み中の重量の外れ値に対する堅牢な方法。

パラメーター

input_folder （str）：入力FAISSインデックス（ index.faiss ）とメタデータ（ index.pkl ）を含むフォルダーへのパス。
column_name （str）：埋め込みを集約するためのメタデータフィールド（例： 'id' ）。
output_folder （str）：出力FAISSインデックスとメタデータが保存されるパス。
method （STR）：使用する集約方法。オプションは次のとおりです。
- 'average' 、 'weighted_average' 、 'geometric_mean' 、 'harmonic_mean' 、 'centroid' 、 'pca' 、 'median' 、 'trimmed_mean' 、「 'max_pooling' 、 'min_pooling' 、 'entropy_weighted_average' 、 'attentive_pooling' 'tukeys_biweight' 、 'exemplar'
weights （リストまたはnp.ndarray、オプション）： weighted_averageメソッドのウェイト。
trim_percentage （float、optional）： trimmed_meanの両端からトリミングする分数。 0から0.5未満の間である必要があります。
weights （リストまたはnp.ndarray、オプション）： weighted_averageメソッドのウェイト。

依存関係

次のパッケージをインストールしていることを確認してください。

FAISS ：FAISSインデックスの処理用。
numpy ：数値計算用。
Scipy ：統計機能用。
Scikit-Learn ：PCAおよびK-Meansクラスタリング用。
Langchain ：ドキュメントストアやベクターストアを処理するため。

以下を使用して依存関係をインストールできます。

pip install faiss-cpu numpy scipy scikit-learn langchain

注： FAISSのGPUバージョンを使用する場合は、 faiss-cpu faiss-gpuに置き換えます。

貢献

貢献は大歓迎です！ Pullリクエストを送信するか、GitHubリポジトリで問題を開きてください。

貢献するときは、コードが次のガイドラインに準拠していることを確認してください。

PEP 8コーディング標準に従ってください。
必要に応じてdocstringsとコメントを含めてください。
新機能またはバグの修正については、ユニットテストを記述します。
変更を反映するようにドキュメントを更新します。

ライセンス

このプロジェクトは、MITライセンスの下でライセンスされています。詳細については、ライセンスファイルを参照してください。

追加のメモ

Langchainでの使用：
- このライブラリは、LangchainのFAISS Vectorストアと互換性があります。 Langchainと統合するときに、埋め込みとインデックスが一貫して処理されることを確認してください。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-05-27
サイズ 9.83KB
から Github

faiss_vector_aggregator

FAISS Embeddings Aggregation Library

目次

特徴

インストール

使用法

例1：単純な平均集約

例2：加重平均集約

例3：主成分分析（PCA）凝集

例4：Centroidの凝集（K-Means）

例5：注意深いプーリング集約

集約方法

パラメーター

依存関係

貢献

ライセンス

追加のメモ

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

YuQue_Book_Download

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

Lihua データ分析エンジン無料版 3.0_検索_ナビゲーション_コレクション_世論_ランキング_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express