faiss_vector_aggregator下载faiss_vector

faiss_vector_aggregator

其他源码

1.0.0

下载

faiss嵌入聚集库

该Python库提供了一套高级方法，用于将与单个文档或实体相关的多个嵌入到单个代表性嵌入中。它支持广泛的聚合技术，从简单的平均到诸如PCA和细心池等复杂方法。

特征

简单的平均值：计算嵌入的算术平均值。
加权平均值：计算嵌入的加权平均值。
几何平均值：计算跨嵌入的几何平均值（对于正值）。
谐波平均值：计算跨嵌入的谐波平均值（对于正值）。
质心（K-均值） ：使用K-均值聚类来找到嵌入的质心。
主成分分析（PCA） ：使用PCA将嵌入到单个代表性向量中。
中间：计算嵌入的元素中位数。
修剪平均值：计算修剪异常值后的平均值。
最大流动：在整个嵌入式上占用每个维度的最大值。
最小化：以跨嵌入的每个维度的最小值为最小值。
熵加权的平均值：通过其熵（信息内容）的重量嵌入。
细心合并：使用注意力机制来学习结合嵌入的权重。
Tukey的Biweight ：一种强大的方法，可以使重量异常值下降。
示例：通过最小化平均距离来选择最能代表组的嵌入。

安装

要安装软件包，您可以使用PIP：

pip install faiss_vector_aggregator

用法

以下是说明如何使用库使用不同方法汇总嵌入的示例。

示例1：简单的平均聚合

假设您收集了存储在faiss索引中的嵌入，并且想使用简单的平均文档ID来汇总它们。

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

参数：
- input_folder ：通往包含输入faiss索引和元数据的文件夹的路径。
- column_name ：汇总嵌入的元数据字段（例如'id' ）。
- output_folder ：将保存输出faiss索引和元数据的路径。
- method="average" ：指定聚合方法。

示例2：加权平均聚合

如果您对嵌入的权重不同，则可以应用加权平均值，以使某些嵌入更重要。

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

参数：
- weights ：对应于每个嵌入的列表或权重数组。
- method="weighted_average" ：指定加权平均方法。

示例3：主成分分析（PCA）聚合

使用PCA将高维嵌入到单个代表性载体中：

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

参数：
- method="pca" ：指定应使用PCA进行聚合。

示例4：质心聚集（k均值）

使用K-均值聚类为每个文档ID找到嵌入式的质心。

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

参数：
- method="centroid" ：指定应使用K-均值聚类。

示例5：细心的合并聚合

使用注意机制汇总嵌入：

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

参数：
- method="attentive_pooling" ：指定细心的池化方法。

聚合方法

以下是库支持的每种聚合方法的详细说明：

平均值：计算嵌入的算术平均值。
加权_average ：计算嵌入的加权平均值。需要weights 。
geometric_mean ：计算跨嵌入的几何平均值。仅用于正值。
Harmonic_mean ：计算跨嵌入的谐波平均值。仅用于正值。
中间：计算嵌入的元素中位数。
TRIMMED_MEAN ：计算均衡一百分比离群值后的平均值。使用trim_percentage参数。
质心：使用K-均值聚类找到嵌入的质心。
PCA ：使用主组件分析将嵌入到第一个主要组件上。
示例：选择最小化与他人的平均余弦距离的嵌入。
max_pooling ：在嵌入式嵌入每个维度的最大值中。
min_pooling ：以嵌入式各个维度的每个维度为最小值。
Entropy_weighted_average ：重量嵌入其熵（信息内容）。
Actentive_Pooling ：使用基于与聚合嵌入的相似性的注意机制。
tukeys_biweeight ：一种可靠的方法，可在嵌入式中减肥异常值。

参数

input_folder （str）：包含输入faiss索引（ index.faiss ）和元数据（ index.pkl ）的文件夹的路径。
column_name （str）：汇总嵌入的元数据字段（例如'id' ）。
output_folder （str）：将保存输出faiss索引和元数据的路径。
method （str）：使用的聚合方法。选项包括：
- 'average' ， 'weighted_average' ， 'geometric_mean' ， 'harmonic_mean' ， 'centroid' ， 'pca' ， 'median' ， 'trimmed_mean' ， 'max_pooling' ， 'min_pooling' ， 'entropy_weighted_average' ， 'attentive_pooling' ， 'tukeys_biweight' ， 'exemplar'
weights （列表或np.ndarray，可选）： weighted_average方法的权重。
trim_percentage （float，可选）： trimmed_mean的两端的缩小。应在0到0.5之间。
weights （列表或np.ndarray，可选）： weighted_average方法的权重。

依赖性

确保已安装以下软件包：

faiss ：用于处理faiss索引。
numpy ：用于数值计算。
Scipy ：用于统计功能。
Scikit-Learn ：用于PCA和K-均值聚类。
Langchain ：用于处理文档商店和矢量商店。

您可以使用以下方式安装依赖项：

pip install faiss-cpu numpy scipy scikit-learn langchain

注意：如果您喜欢使用GPU版本的Faiss，则将faiss-cpu替换为faiss-gpu 。

贡献

欢迎捐款！请随时提交拉动请求或在GitHub存储库上打开问题。

贡献时，请确保您的代码遵守以下准则：

遵循PEP 8编码标准。
在必要时包括Docstrings和评论。
为新功能或错误修复编写单元测试。
更新文档以反映更改。

执照

该项目已根据MIT许可获得许可。有关详细信息，请参见许可证文件。

附加说明

Langchain使用：
- 该库与Langchain的FAISS矢量商店兼容。确保与Langchain集成时，始终处理嵌入和索引。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-05-27
大小 9.83KB
来自于 Github

faiss_vector_aggregator

faiss嵌入聚集库

目录

特征

安装

用法

示例1：简单的平均聚合

示例2：加权平均聚合

示例3：主成分分析（PCA）聚合

示例4：质心聚集（k均值）

示例5：细心的合并聚合

聚合方法

参数

依赖性

贡献

执照

附加说明

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

YuQue_Book_Download

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

丽华数据分析引擎免费版3.0_搜索_导航_采集_舆情_排行_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express