faiss_vector_aggregator Télécharger - faiss_vector_aggregator Code source Télécharger

faiss_vector_aggregator

Autre code source

1.0.0

Télécharger

Bibliothèque d'agrégation Faish Embeddings

Cette bibliothèque Python fournit une suite de méthodes avancées pour agréger plusieurs incorporations associées à un seul document ou entité dans un seul représentant d'intégration. Il prend en charge un large éventail de techniques d'agrégation, de la moyenne simple à des méthodes sophistiquées comme l'ACP et la mise en commun.

Table des matières

Caractéristiques
Installation
Usage
- Exemple 1: agrégation moyenne simple
- Exemple 2: agrégation moyenne pondérée
- Exemple 3: Aggrégation d'analyse des composants principaux (PCA)
- Exemple 4: Agrégation centroïde (K-means)
- Exemple 5: Aggrégation de mise en commun attentive
Méthodes d'agrégation
Paramètres
Dépendances
Contributif
Licence

Caractéristiques

Moyenne simple : Calculez la moyenne arithmétique des intérêts.
Moyenne pondérée : calculer une moyenne pondérée des intérêts.
Moyenne géométrique : Calculez la moyenne géométrique à travers les intérêts (pour les valeurs positives).
Moyenne harmonique : calculer la moyenne harmonique à travers les intérêts (pour les valeurs positives).
Centroïde (k-means) : utilisez le clustering k-means pour trouver le centroïde des intérêts.
Analyse des composants principaux (PCA) : utilisez PCA pour réduire les intégres à un seul vecteur représentatif.
Médiane : Calculez la médiane d'élément des intérêts.
Moyenne taillée : Calculez la moyenne après les valeurs aberrantes.
Poolique maximum : prenez la valeur maximale pour chaque dimension à travers les intérêts.
Poolique Min : prenez la valeur minimale pour chaque dimension à travers les intégres.
Moyenne pondérée en fonction de l'entropie : incorporations de poids par leur entropie (contenu de l'information).
Pooling attentif : utilisez un mécanisme d'attention pour apprendre les poids pour combiner les intérêts.
Tukey's Biweight : une méthode robuste pour les valeurs aberrantes en baisse.
Exemple : sélectionnez l'incorporation qui représente le mieux le groupe en minimisant la distance moyenne.

Installation

Pour installer le package, vous pouvez utiliser PIP:

pip install faiss_vector_aggregator

Usage

Vous trouverez ci-dessous des exemples montrant comment utiliser la bibliothèque pour agréger les incorporations en utilisant différentes méthodes.

Exemple 1: agrégation moyenne simple

Supposons que vous ayez une collection d'incorporation stockée dans un index FAISS, et que vous souhaitez les agréger par leurs identifiants de document associés en utilisant la moyenne simple.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

Paramètres:
- input_folder : Chemin vers le dossier contenant l'index et les métadonnées FAISS d'entrée.
- column_name : le champ de métadonnées par lequel agréger les incorpation (par exemple, 'id' ).
- output_folder : chemin où l'index et les métadonnées Faiss de sortie seront enregistrés.
- method="average" : spécifie la méthode d'agrégation.

Exemple 2: agrégation moyenne pondérée

Si vous avez des poids différents pour les intérêts, vous pouvez appliquer une moyenne pondérée pour donner plus d'importance à certaines intérêts.

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

Paramètres:
- weights : une liste ou un tableau de poids correspondant à chaque intégration.
- method="weighted_average" : Spécifie la méthode moyenne pondérée.

Exemple 3: Aggrégation d'analyse des composants principaux (PCA)

Pour réduire les intérêts à haute dimension à un seul vecteur représentatif utilisant PCA:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

Paramètres:
- method="pca" : Spécifie que l'ACP doit être utilisée pour l'agrégation.

Exemple 4: Agrégation centroïde (K-means)

Utilisez le clustering K-Means pour trouver le centroïde des intégres pour chaque ID de document.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

Paramètres:
- method="centroid" : Spécifie que le clustering K-Means doit être utilisé.

Exemple 5: Aggrégation de mise en commun attentive

Pour utiliser un mécanisme d'attention pour agréger les incorporations:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

Paramètres:
- method="attentive_pooling" : Spécifie la méthode de mise en commun attentive.

Méthodes d'agrégation

Vous trouverez ci-dessous une description détaillée de chaque méthode d'agrégation prise en charge par la bibliothèque:

Moyenne : Calculez la moyenne arithmétique des intérêts.
pondéré_A -Average : calculer une moyenne pondérée des intégres. Nécessite weights .
Geométric_mean : Calculez la moyenne géométrique à travers les intégres. Uniquement pour des valeurs positives.
Harmonic_mean : Calculez la moyenne harmonique à travers les intérêts. Uniquement pour des valeurs positives.
Médiane : Calculez la médiane d'élément des intérêts.
Trimmed_mean : Calculez la moyenne après avoir réduit un pourcentage de valeurs aberrantes. Utilisez le paramètre trim_percentage .
Centroid : utilisez le clustering K-means pour trouver le centroïde des intégres.
PCA : Utilisez l'analyse des composants principaux pour projeter des intégres sur le premier composant principal.
Exemple : sélectionnez l'incorporation qui minimise la distance moyenne en cosinus à d'autres.
MAX_POOLING : Prenez la valeur maximale pour chaque dimension à travers les incorporations.
min_pooling : prenez la valeur minimale pour chaque dimension à travers les intégres.
Entropy_weeep_Average : incorporations de poids par leur entropie (contenu d'information).
Attentive_pooling : utilisez un mécanisme d'attention basé sur la similitude avec les intégres agrégés.
Tukeys_Biweight : Une méthode robuste pour les valeurs aberrantes en bas dans les intégres.

Paramètres

input_folder (STR): Chemin vers le dossier contenant l'index FAISS d'entrée ( index.faiss ) et les métadonnées ( index.pkl ).
column_name (Str): le champ de métadonnées par lequel agréger les intégres (par exemple, 'id' ).
output_folder (STR): chemin où l'index et les métadonnées Faiss de sortie seront enregistrés.
method (STR): la méthode d'agrégation à utiliser. Les options incluent:
- 'average' , 'weighted_average' , 'geometric_mean' , 'harmonic_mean' , 'centroid' , 'pca' ,« 'median' 'trimmed_mean' 'max_pooling' 'min_pooling' , 'entropy_weighted_average' , 'attentive_pooling' , 'tukeys_biweight' , 'exemplar' .
weights (List ou NP.NDARRAY, Facultatif): Poids pour la méthode weighted_average .
trim_percentage (Float, Facultatif): Fraction à TRIM de chaque extrémité pour trimmed_mean . Devrait être compris entre 0 et moins de 0,5.
weights (List ou NP.NDARRAY, Facultatif): Poids pour la méthode weighted_average .

Dépendances

Assurez-vous que les packages suivants sont installés:

FAISS : Pour gérer les index Faiss.
Numpy : pour les calculs numériques.
Scipy : pour les fonctions statistiques.
Scikit-Learn : pour le clustering PCA et K-means.
Langchain : pour gérer les magasins de documents et les magasins vectoriels.

Vous pouvez installer les dépendances en utilisant:

pip install faiss-cpu numpy scipy scikit-learn langchain

Remarque: Remplacez faiss-cpu par faiss-gpu si vous préférez utiliser la version GPU de FAISS.

Contributif

Les contributions sont les bienvenues! N'hésitez pas à soumettre une demande de traction ou à ouvrir un problème sur le référentiel GitHub.

Lors de la contribution, veuillez vous assurer que votre code adhère aux directives suivantes:

Suivez les normes de codage PEP 8.
Incluez les docstrings et les commentaires si nécessaire.
Écrivez des tests unitaires pour de nouvelles fonctionnalités ou des corrections de bogues.
Mettez à jour la documentation pour refléter les modifications.

Licence

Ce projet est autorisé sous la licence du MIT. Voir le fichier de licence pour plus de détails.

Notes supplémentaires

Utilisation avec Langchain:
- Cette bibliothèque est compatible avec le magasin de vecteur FAISS de Langchain. Assurez-vous que vos intérêts et index sont gérés de manière cohérente lors de l'intégration avec Langchain.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-27
taille 9.83KB
Provenant de Github

Applications connexes

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Moteur d'analyse de données Lihua version gratuite 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout