Descargar faiss_vector_aggregator - faiss_vector_aggregator Descargar código fuente

faiss_vector_aggregator

Otro código fuente

1.0.0

Descargar

Biblioteca de agregación de incrustaciones FAISS

Esta biblioteca de Python proporciona un conjunto de métodos avanzados para agregar múltiples incrustaciones asociadas con un solo documento o entidad en una sola incrustación representativa. Admite una amplia gama de técnicas de agregación, desde un promedio simple hasta métodos sofisticados como PCA y acumulación de atención.

Tabla de contenido

Características
Instalación
Uso
- Ejemplo 1: agregación promedio simple
- Ejemplo 2: agregación promedio ponderada
- Ejemplo 3: agregación de análisis de componentes principales (PCA)
- Ejemplo 4: agregación centroide (k-means)
- Ejemplo 5: agregación de agrupación atenta
Métodos de agregación
Parámetros
Dependencias
Que contribuye
Licencia

Características

Promedio simple : Calcule la media aritmética de los incrustaciones.
Promedio ponderado : Calcule un promedio ponderado de incrustaciones.
Media geométrica : Calcule la media geométrica a través de incrustaciones (para valores positivos).
Media armónica : calcule la media armónica en los incrustaciones (para valores positivos).
Centroide (K-Means) : Use la agrupación de K-Means para encontrar el centroide de los incrustaciones.
Análisis de componentes principales (PCA) : use PCA para reducir los incrustaciones a un solo vector representativo.
Mediana : Calcule la mediana de los elementos de los incrustaciones.
Media recortada : Calcule la media después de recortar valores atípicos.
Poltaje máximo : tome el valor máximo para cada dimensión a través de incrustaciones.
Poltaje mínimo : tome el valor mínimo para cada dimensión a través de incrustaciones.
Promedio ponderado por entropía : incrustaciones de peso por su entropía (contenido de información).
Agrupación atenta : use un mecanismo de atención para aprender los pesos para combinar incrustaciones.
El bifoneo de Tukey : un método robusto para los valores atípicos de bajo peso.
Ejemplar : seleccione la incrustación que mejor representa al grupo minimizando la distancia promedio.

Instalación

Para instalar el paquete, puede usar PIP:

pip install faiss_vector_aggregator

Uso

A continuación se presentan ejemplos que demuestran cómo usar la biblioteca para agregar incrustaciones utilizando diferentes métodos.

Ejemplo 1: agregación promedio simple

Supongamos que tiene una colección de incrustaciones almacenadas en un índice FAISS, y desea agregarlos mediante sus ID de documentos asociadas utilizando un promedio simple.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

Parámetros:
- input_folder : ruta a la carpeta que contiene el índice de entrada FAISS y los metadatos.
- column_name : el campo de metadatos para agregar incrustaciones (por ejemplo, 'id' ).
- output_folder : ruta donde se guardará el índice de salida FAISS y los metadatos.
- method="average" : especifica el método de agregación.

Ejemplo 2: agregación promedio ponderada

Si tiene diferentes pesos para los incrustaciones, puede aplicar un promedio ponderado para dar más importancia a ciertas incrustaciones.

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

Parámetros:
- weights : una lista o una variedad de pesos correspondientes a cada incrustación.
- method="weighted_average" : Especifica el método promedio ponderado.

Ejemplo 3: agregación de análisis de componentes principales (PCA)

Para reducir las integridades dimensionales a un solo vector representativo usando PCA:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

Parámetros:
- method="pca" : especifica que PCA debe usarse para la agregación.

Ejemplo 4: agregación centroide (k-means)

Use la agrupación de K-Means para encontrar el centroide de los incrustaciones para cada ID de documento.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

Parámetros:
- method="centroid" : especifica que se debe usar la agrupación de K-means.

Ejemplo 5: agregación de agrupación atenta

Para usar un mecanismo de atención para agregar incrustaciones:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

Parámetros:
- method="attentive_pooling" : Especifica el método de agrupación de atención.

Métodos de agregación

A continuación se muestra una descripción detallada de cada método de agregación compatible con la biblioteca:

Promedio : Calcule la media aritmética de los incrustaciones.
PESUDED_AVERAGE : Calcule un promedio ponderado de incrustaciones. Requiere weights .
Geométrico_Mean : Calcule la media geométrica a través de incrustaciones. Solo para valores positivos.
Harmonic_mean : Calcule la media armónica a través de los incrustaciones. Solo para valores positivos.
Mediana : Calcule la mediana de los elementos de los incrustaciones.
TRIMMED_MEAN : Calcule la media después de recortar un porcentaje de valores atípicos. Use el parámetro trim_percentage .
Centroide : use la agrupación de K-means para encontrar el centroide de los incrustaciones.
PCA : Use el análisis de componentes principales para proyectar incrustaciones en el primer componente principal.
Ejemplar : seleccione la incrustación que minimiza la distancia promedio de coseno a otros.
Max_pooling : tome el valor máximo para cada dimensión a través de incrustaciones.
Min_pooling : tome el valor mínimo para cada dimensión a través de incrustaciones.
entropy_weuth_average : incrustaciones de peso por su entropía (contenido de información).
Attentive_pooling : use un mecanismo de atención basado en la similitud con las incrustaciones agregadas.
tukeys_biweight : un método robusto para los valores atípicos de bajo peso en los incrustaciones.

Parámetros

input_folder (STR): ruta a la carpeta que contiene el índice FAISS de entrada ( index.faiss ) y metadatos ( index.pkl ).
column_name (str): el campo de metadatos para agregar incrustaciones (por ejemplo, 'id' ).
output_folder (STR): ruta donde se guardará el índice FAISS de salida y los metadatos.
method (STR): el método de agregación para usar. Las opciones incluyen:
- 'average' , 'weighted_average' , 'geometric_mean' , 'harmonic_mean' , 'centroid' , 'pca' , 'median' , 'trimmed_mean' , 'max_pooling' , 'min_pooling' , 'entropy_weighted_average' , 'attentive_pooling' , 'tukeys_biweight' , 'exemplar' .
weights (lista o np.ndarray, opcional): pesos para el método weighted_average .
trim_percentage (flotante, opcional): fracción para recortar desde cada extremo para trimmed_mean . Debe estar entre 0 y menos de 0.5.
weights (lista o np.ndarray, opcional): pesos para el método weighted_average .

Dependencias

Asegúrese de tener los siguientes paquetes instalados:

FAISS : para manejar los índices FAISS.
Numpy : para cálculos numéricos.
SciPy : para funciones estadísticas.
Scikit-Learn : para PCA y K-Means Clustering.
Langchain : para manejar tiendas de documentos y tiendas de vectores.

Puede instalar las dependencias usando:

pip install faiss-cpu numpy scipy scikit-learn langchain

Nota: Reemplace faiss-cpu con faiss-gpu si prefiere usar la versión GPU de FAISS.

Que contribuye

¡Las contribuciones son bienvenidas! No dude en enviar una solicitud de extracción o abrir un problema en el repositorio de GitHub.

Al contribuir, asegúrese de que su código se adhiera a las siguientes pautas:

Siga los estándares de codificación PEP 8.
Incluya documentos y comentarios cuando sea necesario.
Escriba pruebas unitarias para nuevas funciones o correcciones de errores.
Actualice la documentación para reflejar los cambios.

Licencia

Este proyecto tiene licencia bajo la licencia MIT. Consulte el archivo de licencia para obtener más detalles.

Notas adicionales

Uso con Langchain:
- Esta biblioteca es compatible con la tienda FAISS Vector de Langchain. Asegúrese de que sus incrustaciones e índices se manejen de manera consistente cuando se integren con Langchain.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-27
tamaño 9.83KB
Proviene de Github

Aplicaciones relacionadas

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Motor de análisis de datos Lihua versión gratuita 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo