faiss_vector_aggregator下載faiss_vector

faiss_vector_aggregator

其他源碼

1.0.0

下載

faiss嵌入聚集庫

該Python庫提供了一套高級方法，用於將與單個文檔或實體相關的多個嵌入到單個代表性嵌入中。它支持廣泛的聚合技術，從簡單的平均到諸如PCA和細心池等複雜方法。

特徵

簡單的平均值：計算嵌入的算術平均值。
加權平均值：計算嵌入的加權平均值。
幾何平均值：計算跨嵌入的幾何平均值（對於正值）。
諧波平均值：計算跨嵌入的諧波平均值（對於正值）。
質心（K-均值） ：使用K-均值聚類來找到嵌入的質心。
主成分分析（PCA） ：使用PCA將嵌入到單個代表性向量中。
中間：計算嵌入的元素中位數。
修剪平均值：計算修剪異常值後的平均值。
最大流動：在整個嵌入式上佔用每個維度的最大值。
最小化：以跨嵌入的每個維度的最小值為最小值。
熵加權的平均值：通過其熵（信息內容）的重量嵌入。
細心合併：使用注意力機制來學習結合嵌入的權重。
Tukey的Biweight ：一種強大的方法，可以使重量異常值下降。
示例：通過最小化平均距離來選擇最能代表組的嵌入。

安裝

要安裝軟件包，您可以使用PIP：

pip install faiss_vector_aggregator

用法

以下是說明如何使用庫使用不同方法彙總嵌入的示例。

示例1：簡單的平均聚合

假設您收集了存儲在faiss索引中的嵌入，並且想使用簡單的平均文檔ID來匯總它們。

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

參數：
- input_folder ：通往包含輸入faiss索引和元數據的文件夾的路徑。
- column_name ：匯總嵌入的元數據字段（例如'id' ）。
- output_folder ：將保存輸出faiss索引和元數據的路徑。
- method="average" ：指定聚合方法。

示例2：加權平均聚合

如果您對嵌入的權重不同，則可以應用加權平均值，以使某些嵌入更重要。

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

參數：
- weights ：對應於每個嵌入的列表或權重數組。
- method="weighted_average" ：指定加權平均方法。

示例3：主成分分析（PCA）聚合

使用PCA將高維嵌入到單個代表性載體中：

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

參數：
- method="pca" ：指定應使用PCA進行聚合。

示例4：質心聚集（k均值）

使用K-均值聚類為每個文檔ID找到嵌入式的質心。

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

參數：
- method="centroid" ：指定應使用K-均值聚類。

示例5：細心的合併聚合

使用注意機制匯總嵌入：

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

參數：
- method="attentive_pooling" ：指定細心的池化方法。

聚合方法

以下是庫支持的每種聚合方法的詳細說明：

平均值：計算嵌入的算術平均值。
加權_average ：計算嵌入的加權平均值。需要weights 。
geometric_mean ：計算跨嵌入的幾何平均值。僅用於正值。
Harmonic_mean ：計算跨嵌入的諧波平均值。僅用於正值。
中間：計算嵌入的元素中位數。
TRIMMED_MEAN ：計算均衡一百分比離群值後的平均值。使用trim_percentage參數。
質心：使用K-均值聚類找到嵌入的質心。
PCA ：使用主組件分析將嵌入到第一個主要組件上。
示例：選擇最小化與他人的平均餘弦距離的嵌入。
max_pooling ：在嵌入式嵌入每個維度的最大值中。
min_pooling ：以嵌入式各個維度的每個維度為最小值。
Entropy_weighted_average ：重量嵌入其熵（信息內容）。
Actentive_Pooling ：使用基於與聚合嵌入的相似性的注意機制。
tukeys_biweeight ：一種可靠的方法，可在嵌入式中減肥異常值。

參數

input_folder （str）：包含輸入faiss索引（ index.faiss ）和元數據（ index.pkl ）的文件夾的路徑。
column_name （str）：匯總嵌入的元數據字段（例如'id' ）。
output_folder （str）：將保存輸出faiss索引和元數據的路徑。
method （str）：使用的聚合方法。選項包括：
- 'average' ， 'weighted_average' ， 'geometric_mean' ， 'harmonic_mean' ， 'centroid' ， 'pca' ， 'median' ， 'trimmed_mean' ， 'max_pooling' ， 'min_pooling' ， 'entropy_weighted_average' ， 'attentive_pooling' ， 'tukeys_biweight' ， 'exemplar'
weights （列表或np.ndarray，可選）： weighted_average方法的權重。
trim_percentage （float，可選）： trimmed_mean的兩端的縮小。應在0到0.5之間。
weights （列表或np.ndarray，可選）： weighted_average方法的權重。

依賴性

確保已安裝以下軟件包：

faiss ：用於處理faiss索引。
numpy ：用於數值計算。
Scipy ：用於統計功能。
Scikit-Learn ：用於PCA和K-均值聚類。
Langchain ：用於處理文檔商店和矢量商店。

您可以使用以下方式安裝依賴項：

pip install faiss-cpu numpy scipy scikit-learn langchain

注意：如果您喜歡使用GPU版本的Faiss，則將faiss-cpu替換為faiss-gpu 。

貢獻

歡迎捐款！請隨時提交拉動請求或在GitHub存儲庫上打開問題。

貢獻時，請確保您的代碼遵守以下準則：

遵循PEP 8編碼標準。
在必要時包括Docstrings和評論。
為新功能或錯誤修復編寫單元測試。
更新文檔以反映更改。

執照

該項目已根據MIT許可獲得許可。有關詳細信息，請參見許可證文件。

附加說明

Langchain使用：
- 該庫與Langchain的FAISS矢量商店兼容。確保與Langchain集成時，始終處理嵌入和索引。

展開

附加信息

版本 1.0.0
類型其他源碼
更新時間 2025-05-27
大小 9.83KB
來自於 Github

相關應用

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
麗華資料分析引擎免費版3.0_搜尋_導航_採集_輿情_排行_api

2022-06-28

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部

faiss_vector_aggregator