Unduh faiss_vector_aggregator - Unduh Kode Sumber faiss_vector

faiss_vector_aggregator

Kode sumber lainnya

1.0.0

Unduh

Perpustakaan Agregasi Embeddings Faiss

Perpustakaan Python ini menyediakan serangkaian metode canggih untuk menggabungkan beberapa embedding yang terkait dengan satu dokumen atau entitas ke dalam embedding representatif tunggal. Ini mendukung berbagai teknik agregasi, dari rata -rata sederhana hingga metode canggih seperti PCA dan pengumpulan penuh perhatian.

Daftar isi

Fitur
Instalasi
Penggunaan
- Contoh 1: Agregasi rata -rata sederhana
- Contoh 2: Agregasi rata -rata tertimbang
- Contoh 3: Agregasi Analisis Komponen Utama (PCA)
- Contoh 4: Agregasi Centroid (K-Means)
- Contoh 5: Agregasi Pooling yang perhatian
Metode agregasi
Parameter
Dependensi
Berkontribusi
Lisensi

Fitur

Rata -rata sederhana : Hitung rata -rata aritmatika dari embeddings.
Rata -rata tertimbang : Hitung rata -rata tertimbang dari embeddings.
Rata -rata geometris : Hitung rata -rata geometris di seluruh embeddings (untuk nilai positif).
Rata -rata harmonik : Hitung rata -rata harmonik di seluruh embeddings (untuk nilai positif).
Centroid (K-Means) : Gunakan pengelompokan K-Means untuk menemukan centroid dari embeddings.
Analisis Komponen Utama (PCA) : Gunakan PCA untuk mengurangi embeddings ke vektor representatif tunggal.
Median : Hitung median embeddings elemen-bijaksana.
Rata -rata terpangkas : Hitung rata -rata setelah pemangkasan outlier.
Max-Pooling : Ambil nilai maksimum untuk setiap dimensi di seluruh embeddings.
Min-Pooling : Ambil nilai minimum untuk setiap dimensi di seluruh embeddings.
Rata-rata entropi-tertimbang : embeddings berat oleh entropi mereka (konten informasi).
Pooling yang penuh perhatian : Gunakan mekanisme perhatian untuk mempelajari bobot untuk menggabungkan embeddings.
Tukey's Biweight : Metode yang kuat untuk menurunkan berat badan.
Exemplar : Pilih embedding yang paling mewakili grup dengan meminimalkan jarak rata -rata.

Instalasi

Untuk menginstal paket, Anda dapat menggunakan PIP:

pip install faiss_vector_aggregator

Penggunaan

Di bawah ini adalah contoh yang menunjukkan cara menggunakan perpustakaan untuk menggabungkan embeddings menggunakan metode yang berbeda.

Contoh 1: Agregasi rata -rata sederhana

Misalkan Anda memiliki koleksi embeddings yang disimpan dalam indeks FAISS, dan Anda ingin menggabungkannya dengan ID dokumen terkait menggunakan rata -rata sederhana.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

Parameter:
- input_folder : Jalur ke folder yang berisi indeks input FAISS dan metadata.
- column_name : Bidang metadata yang digunakan untuk menggabungkan embeddings (misalnya, 'id' ).
- output_folder : jalur di mana indeks FAISS output dan metadata akan disimpan.
- method="average" : Menentukan metode agregasi.

Contoh 2: Agregasi rata -rata tertimbang

Jika Anda memiliki bobot yang berbeda untuk embeddings, Anda dapat menerapkan rata -rata tertimbang untuk memberikan lebih penting bagi embedding tertentu.

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

Parameter:
- weights : Daftar atau array bobot yang sesuai dengan masing -masing embedding.
- method="weighted_average" : Menentukan metode rata -rata tertimbang.

Contoh 3: Agregasi Analisis Komponen Utama (PCA)

Untuk mengurangi embeddings dimensi tinggi ke vektor representatif tunggal menggunakan PCA:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

Parameter:
- method="pca" : Menentukan bahwa PCA harus digunakan untuk agregasi.

Contoh 4: Agregasi Centroid (K-Means)

Gunakan pengelompokan K-Means untuk menemukan centroid embeddings untuk setiap ID dokumen.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

Parameter:
- method="centroid" : Menentukan bahwa pengelompokan k-means harus digunakan.

Contoh 5: Agregasi Pooling yang perhatian

Untuk menggunakan mekanisme perhatian untuk menggabungkan embeddings:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

Parameter:
- method="attentive_pooling" : Menentukan metode pengumpulan yang penuh perhatian.

Metode agregasi

Di bawah ini adalah deskripsi terperinci dari setiap metode agregasi yang didukung oleh perpustakaan:

Rata -rata : Hitung rata -rata aritmatika dari embeddings.
Weighted_Armerage : Hitung rata -rata tertimbang dari embeddings. Membutuhkan weights .
geometric_mean : Hitung rata -rata geometrik di seluruh embeddings. Hanya untuk nilai positif.
Harmonic_mean : Hitung rata -rata harmonik di seluruh embeddings. Hanya untuk nilai positif.
Median : Hitung median embeddings elemen-bijaksana.
Trimmed_mean : Hitung rata -rata setelah memotong persentase outlier. Gunakan parameter trim_percentage .
Centroid : Gunakan pengelompokan K-Means untuk menemukan centroid dari embeddings.
PCA : Gunakan analisis komponen utama untuk memproyeksikan embeddings ke komponen utama pertama.
Exemplar : Pilih embedding yang meminimalkan jarak cosinus rata -rata kepada orang lain.
MAX_POOLING : Ambil nilai maksimum untuk setiap dimensi di seluruh embeddings.
Min_pooling : Ambil nilai minimum untuk setiap dimensi di seluruh embeddings.
entropy_weighted_average : embeddings berat oleh entropi mereka (konten informasi).
Attentive_pooling : Gunakan mekanisme perhatian berdasarkan kesamaan dengan embeddings agregat.
Tumeys_biweight : Metode yang kuat untuk outlier down-weight di embeddings.

Parameter

input_folder (str): Jalur ke folder yang berisi indeks input FAISS ( index.faiss ) dan metadata ( index.pkl ).
column_name (str): Bidang metadata yang digunakan untuk menggabungkan embeddings (misalnya, 'id' ).
output_folder (str): Path di mana indeks FAISS output dan metadata akan disimpan.
method (STR): Metode agregasi untuk digunakan. Opsi termasuk:
- 'average' , 'weighted_average' , 'geometric_mean' , 'harmonic_mean' , 'centroid' , 'pca' , 'median' , 'trimmed_mean' , 'max_pooling' , 'min_pooling' , 'entropy_weighted_average' , 'attentive_pooling' , 'tukeys_biweight' , 'exemplar' .
weights (daftar atau np.ndarray, opsional): Bobot untuk metode weighted_average .
trim_percentage (float, opsional): Fraction to trim dari setiap ujung untuk trimmed_mean . Harus antara 0 dan kurang dari 0,5.
weights (daftar atau np.ndarray, opsional): Bobot untuk metode weighted_average .

Dependensi

Pastikan Anda memiliki paket berikut yang diinstal:

FAISS : Untuk menangani indeks FAISS.
Numpy : Untuk perhitungan numerik.
SCIPY : Untuk fungsi statistik.
Scikit-learn : Untuk pengelompokan PCA dan K-Means.
Langchain : Untuk menangani toko dokumen dan toko vektor.

Anda dapat menginstal dependensi menggunakan:

pip install faiss-cpu numpy scipy scikit-learn langchain

Catatan: Ganti faiss-cpu dengan faiss-gpu jika Anda lebih suka menggunakan versi GPU FAISS.

Berkontribusi

Kontribusi dipersilakan! Silakan mengirimkan permintaan tarik atau buka masalah di repositori GitHub.

Saat berkontribusi, harap pastikan kode Anda mematuhi pedoman berikut:

Ikuti standar pengkodean PEP 8.
Sertakan dokumen dan komentar jika perlu.
Tulis tes unit untuk fitur baru atau perbaikan bug.
Perbarui dokumentasi untuk mencerminkan perubahan.

Lisensi

Proyek ini dilisensikan di bawah lisensi MIT. Lihat file lisensi untuk detailnya.

Catatan tambahan

Penggunaan dengan Langchain:
- Perpustakaan ini kompatibel dengan toko Vector FAISS Langchain. Pastikan bahwa embeddings dan indeks Anda ditangani secara konsisten saat berintegrasi dengan Langchain.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-05-27
ukuran 9.83KB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua