faiss_vector_aggregator -Download - faiss_vector_aggregator -Quellcode herunterladen

faiss_vector_aggregator

Anderer Quellcode

1.0.0

Herunterladen

Faiss Einbettung der Aggregationsbibliothek

Diese Python -Bibliothek bietet eine Reihe fortschrittlicher Methoden zur Aggregation mehrerer Einbettungen, die mit einem einzelnen Dokument oder einer Einheit in eine einzelne repräsentative Einbettung verbunden sind. Es unterstützt eine breite Palette von Aggregationstechniken, von einer einfachen Mittelung bis hin zu hoch entwickelten Methoden wie PCA und aufmerksamem Pooling.

Inhaltsverzeichnis

Merkmale
Installation
Verwendung
- Beispiel 1: Einfache durchschnittliche Aggregation
- Beispiel 2: gewichtete durchschnittliche Aggregation
- Beispiel 3: PCA -Aggregation (Hauptkomponentenanalyse)
- Beispiel 4: Zentroid-Aggregation (K-Means)
- Beispiel 5: aufmerksame Pooling -Aggregation
Aggregationsmethoden
Parameter
Abhängigkeiten
Beitragen
Lizenz

Merkmale

Einfacher Durchschnitt : Berechnen Sie das arithmetische Mittelwert von Einbettungen.
Gewichteter Durchschnitt : Berechnen Sie einen gewichteten Durchschnitt der Einbettungen.
Geometrischer Mittelwert : Berechnen Sie den geometrischen Mittelwert über Einbettungen hinweg (für positive Werte).
Harmonischer Mittelwert : Berechnen Sie den harmonischen Mittelwert über Einbettungen hinweg (für positive Werte).
Centroid (K-Means) : Verwenden Sie K-Means-Clustering, um den Schwerpunkt der Einbettungen zu finden.
Hauptkomponentenanalyse (PCA) : Verwenden Sie PCA, um Einbettungen auf einen einzelnen repräsentativen Vektor zu reduzieren.
Median : Berechnen Sie den Element-Median der Einbettungen.
Begegneten Mittelwert : Berechnen Sie den Mittelwert nach dem Trimmen von Ausgaben.
Max-Pooling : Nehmen Sie den Maximalwert für jede Dimension über Einbettungen hinweg.
MIN-POOLING : Nehmen Sie den Mindestwert für jede Dimension über Einbettungen hinweg.
Entropie-gewichteter Durchschnitt : Gewichtseinbettungen durch ihre Entropie (Informationsgehalt).
Aufmerksames Pooling : Verwenden Sie einen Aufmerksamkeitsmechanismus, um die Gewichte für die Kombination von Einbettungen zu lernen.
Tukey's BIWeight : Eine robuste Methode für Ausreißer im Abfallgewicht.
Exemplar : Wählen Sie die Einbettung aus, die die Gruppe am besten repräsentiert, indem Sie die durchschnittliche Entfernung minimieren.

Installation

Um das Paket zu installieren, können Sie PIP verwenden:

pip install faiss_vector_aggregator

Verwendung

Im Folgenden finden Sie Beispiele, die zeigen, wie die Bibliothek mithilfe unterschiedlicher Methoden einbezogen wird.

Beispiel 1: Einfache durchschnittliche Aggregation

Angenommen, Sie haben eine Sammlung von Einbettungsdings, die in einem Faiss -Index gespeichert sind, und möchten sie mithilfe der zugehörigen Dokument -IDs mit einfachem Mittelwertung zusammenfassen.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

Parameter:
- input_folder : Pfad zum Ordner, der den Eingangs -FAISS -Index und die Metadaten enthält.
- column_name : Das Feld Metadaten, mit dem Einbettungen aggregieren sollen (z. B. 'id' ).
- output_folder : Pfad, wobei der Ausgabe -FAISS -Index und die Metadaten gespeichert werden.
- method="average" : Gibt die Aggregationsmethode an.

Beispiel 2: gewichtete durchschnittliche Aggregation

Wenn Sie unterschiedliche Gewichte für die Einbettungen haben, können Sie einen gewichteten Durchschnitt anwenden, um bestimmten Einbettungen mehr Bedeutung zu geben.

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

Parameter:
- weights : Eine Liste oder eine Reihe von Gewichten, die jeder Einbettung entsprechen.
- method="weighted_average" : Gibt die gewichtete durchschnittliche Methode an.

Beispiel 3: PCA -Aggregation (Hauptkomponentenanalyse)

Reduzierung hochdimensionaler Einbettungen auf einen einzelnen repräsentativen Vektor unter Verwendung von PCA:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

Parameter:
- method="pca" : Gibt an, dass PCA für die Aggregation verwendet werden sollte.

Beispiel 4: Zentroid-Aggregation (K-Means)

Verwenden Sie K-Means-Clustering, um die Einbettung für jede Dokument-ID zu finden.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

Parameter:
- method="centroid" : Gibt an, dass k-means clustering verwendet werden sollte.

Beispiel 5: aufmerksame Pooling -Aggregation

Um einen Aufmerksamkeitsmechanismus für die Aggregation von Einbettungen zu verwenden:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

Parameter:
- method="attentive_pooling" : Gibt die aufmerksame Pooling -Methode an.

Aggregationsmethoden

Im Folgenden finden Sie eine detaillierte Beschreibung jeder von der Bibliothek unterstützten Aggregationsmethode:

Durchschnitt : Berechnen Sie das arithmetische Mittelwert von Einbettungen.
Weighted_verage : Berechnen Sie einen gewichteten Durchschnitt von Einbettungen. Erfordert weights .
GEOMETRIC_MEAN : Berechnen Sie den geometrischen Mittelwert über Einbettungen. Nur für positive Werte.
Mundharmonic_mean : Berechnen Sie den harmonischen Mittelwert über Einbettungen hinweg. Nur für positive Werte.
Median : Berechnen Sie den Element-Median der Einbettungen.
Trimmed_mean : Berechnen Sie den Mittelwert, nachdem Sie einen Prozentsatz der Ausreißer abschneiden. Verwenden Sie den Parameter trim_percentage .
Centroid : Verwenden Sie K-Means-Clustering, um den Schwerpunkt der Einbettungen zu finden.
PCA : Verwenden Sie die Hauptkomponentenanalyse, um Einbettungen an der ersten Hauptkomponente zu projizieren.
Exemplar : Wählen Sie die Einbettung aus, die den durchschnittlichen Kosinusabstand zu anderen minimiert.
Max_pooling : Nehmen Sie den Maximalwert für jede Dimension über Einbettungen hinweg.
MIN_POOLING : Nehmen Sie den Mindestwert für jede Dimension über Einbettungen hinweg.
Entropy_Weighted_average : Gewichtsbettdings nach ihrer Entropie (Informationsinhalt).
AUSGENTIVE_POOLING : Verwenden Sie einen Aufmerksamkeitsmechanismus, der auf Ähnlichkeit mit aggregierten Einbettungen basiert.
TUKEYS_BIWEIGHT : Eine robuste Methode, um Ausreißer in den Einbettungen abzunehmen.

Parameter

input_folder (STR): Pfad zum Ordner, der den Eingabe -FAISS -Index ( index.faiss ) und metadata ( index.pkl ) enthält.
column_name (STR): Das Feld Metadaten, mit dem Einbettungen aggregieren können (z. B. 'id' ).
output_folder (STR): Pfad, wo der Ausgangsfaiss -Index und die Metadaten gespeichert werden.
method (STR): Die zu verwendende Aggregationsmethode. Zu den Optionen gehören:
- 'average' , 'weighted_average' , 'geometric_mean' , 'harmonic_mean' , 'centroid' , 'pca' , 'median' , 'trimmed_mean' , 'max_pooling' , 'min_pooling' , 'entropy_weighted_average' , 'attentive_pooling' , 'tukeys_biweight' , 'exemplar' .
weights (Liste oder NP.NDarray, optional): Gewichte für die Methode weighted_average .
trim_percentage (float, optional): Bruch zum Trimm von jedem Ende für trimmed_mean . Sollte zwischen 0 und weniger als 0,5 liegen.
weights (Liste oder NP.NDarray, optional): Gewichte für die Methode weighted_average .

Abhängigkeiten

Stellen Sie sicher, dass die folgenden Pakete installiert sind:

FAISS : Zum Umgang mit Faiss -Indizes.
Numpy : Für numerische Berechnungen.
Scipy : Für statistische Funktionen.
Scikit-Learn : Für PCA- und K-Means-Clustering.
Langchain : Für die Handhabung von Dokumentengeschäften und Vektorgeschäften.

Sie können die Abhängigkeiten mit:

pip install faiss-cpu numpy scipy scikit-learn langchain

HINWEIS: Ersetzen Sie faiss-cpu durch faiss-gpu wenn Sie es vorziehen, die GPU-Version von FAISS zu verwenden.

Beitragen

Beiträge sind willkommen! Bitte zögern Sie nicht, eine Pull -Anfrage einzureichen oder ein Problem im Github -Repository zu eröffnen.

Stellen Sie beim Beitrag sicher, dass Ihr Code auf die folgenden Richtlinien hält:

Folgen Sie PEP 8 Codierungsstandards.
Fügen Sie bei Bedarf Docstrings und Kommentare ein.
Schreiben Sie Unit -Tests für neue Funktionen oder Fehlerbehebungen.
Aktualisieren Sie die Dokumentation, um Änderungen widerzuspiegeln.

Lizenz

Dieses Projekt ist unter der MIT -Lizenz lizenziert. Weitere Informationen finden Sie in der Lizenzdatei.

Zusätzliche Notizen

Verwendung mit Langchain:
- Diese Bibliothek ist mit FAISS Vector Store von Langchain kompatibel. Stellen Sie sicher, dass Ihre Einbettungen und Indizes bei der Integration in Langchain konsequent behandelt werden.

Expandieren

Zusätzliche Informationen