faiss_vector_aggregator 다운로드 faiss_vector_aggregator 소스 코드 다운로드

faiss_vector_aggregator

기타 소스코드

1.0.0

다운로드

FAISS 임베딩 집합 라이브러리

이 파이썬 라이브러리는 단일 문서 또는 엔티티와 관련된 다중 임베딩을 단일 대표 임베딩으로 집계하기위한 다양한 고급 방법을 제공합니다. 간단한 평균화부터 PCA 및 세심한 풀링과 같은 정교한 방법에 이르기까지 광범위한 집계 기술을 지원합니다.

특징

단순 평균 : 임베딩의 산술 평균을 계산합니다.
가중 평균 : 가중 평균 임베딩을 계산합니다.
기하학적 평균 : 임베딩을 가로 질러 기하학적 평균을 계산합니다 (양수 값의 경우).
고조파 평균 : 임베딩에서 고조파 평균을 계산합니다 (양수 값의 경우).
중심 (k-means) : k-means 클러스터링을 사용하여 임베딩의 중심을 찾으십시오.
PCA (Principal Component Analysis) : PCA를 사용하여 단일 대표 벡터로 내장을 줄입니다.
중간 값 : 요소가있는 임베딩 중앙값을 계산합니다.
트림 된 평균 : 특이 치를 다듬은 후 평균을 계산합니다.
MAX-POOLING : 임베딩에 걸쳐 각 차원의 최대 값을 취하십시오.
Min-Pooling : 임베딩에 걸쳐 각 차원의 최소 값을 취하십시오.
엔트로피 가중 평균 : 엔트로피에 의한 중량 임베딩 (정보 내용).
세심한 풀링 :주의 메커니즘을 사용하여 임베딩을 결합하기위한 가중치를 배우십시오.
Tukey 's Biweight : 하향 가중 이상의 강력한 방법.
예시 : 평균 거리를 최소화하여 그룹을 가장 잘 나타내는 임베딩을 선택하십시오.

설치

패키지를 설치하려면 PIP를 사용할 수 있습니다.

pip install faiss_vector_aggregator

용법

다음은 라이브러리를 사용하여 다른 방법을 사용하여 임베딩을 집계하는 방법을 보여주는 예입니다.

예 1 : 간단한 평균 집계

FAISS 지수에 저장된 임베딩 모음이 있다고 가정하고 간단한 평균화를 사용하여 관련 문서 ID로 집계하려고합니다.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

매개 변수 :
- input_folder : 입력 FAISS 인덱스 및 메타 데이터를 포함하는 폴더로가는 경로.
- column_name : 임베딩을 집계하는 메타 데이터 필드 (예 : 'id' ).
- output_folder : 출력 FAISS 인덱스 및 메타 데이터가 저장되는 경로.
- method="average" : 집계 방법을 지정합니다.

예 2 : 가중 평균 집계

임베딩에 대한 가중치가 다르면 가중 평균을 적용하여 특정 임베딩에 더 중요하게 생각할 수 있습니다.

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

매개 변수 :
- weights : 각 임베딩에 해당하는 목록 또는 배열.
- method="weighted_average" : 가중 평균 방법을 지정합니다.

예 3 : 주요 구성 요소 분석 (PCA) 집계

PCA를 사용하여 고차원 임베딩을 단일 대표 벡터로 줄이기 위해 :

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

매개 변수 :
- method="pca" : PCA를 집계에 사용해야한다고 지정합니다.

예 4 : 중심 집계 (K- 평균)

K- 평균 클러스터링을 사용하여 각 문서 ID의 임베딩 중심을 찾으십시오.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

매개 변수 :
- method="centroid" : K- 평균 클러스터링을 사용해야합니다.

예 5 : 세심한 풀링 집계

임베딩을 집계하기위한주의 메커니즘을 사용하기 위해 :

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

매개 변수 :
- method="attentive_pooling" : 세심한 풀링 방법을 지정합니다.

집계 방법

아래는 라이브러리에서 지원하는 각 집계 방법에 대한 자세한 설명입니다.

평균 : 임베딩의 산술 평균을 계산합니다.
가중치 _average : 가중 평균 임베딩을 계산합니다. weights 필요합니다.
geometric_mean : 임베딩에 걸쳐 기하학적 평균을 계산합니다. 양수 값에만 해당됩니다.
Harmonic_mean : 임베딩에서 고조파 평균을 계산합니다. 양수 값에만 해당됩니다.
중간 값 : 요소가있는 임베딩 중앙값을 계산합니다.
trimmed_mean : 이상치의 비율을 다듬은 후 평균을 계산합니다. trim_percentage 매개 변수를 사용하십시오.
중심 : k- 평균 클러스터링을 사용하여 임베딩의 중심을 찾으십시오.
PCA : 주요 구성 요소 분석을 사용하여 첫 번째 주요 구성 요소에 임베딩을 프로젝트합니다.
예시 : 다른 사람과의 평균 코사인 거리를 최소화하는 임베딩을 선택하십시오.
max_pooling : 임베딩에 걸쳐 각 차원의 최대 값을 취하십시오.
min_pooling : 임베딩에 걸쳐 각 차원의 최소 값을 취하십시오.
Entropy_weighted_average : 엔트로피에 의한 중량 임베딩 (정보 내용).
Assentive_pooling : 집계 임베딩과 유사성을 기반으로 한주의 메커니즘을 사용하십시오.
Tukeys_biweight : 임베딩에서 다운 가중 이상을 강력한 방법.

매개 변수

input_folder (str) : 입력 FAISS 인덱스 ( index.faiss ) 및 메타 데이터 ( index.pkl )를 포함하는 폴더로가는 경로.
column_name (str) : 임베딩을 집계하는 메타 데이터 필드 (예 : 'id' ).
output_folder (STR) : 출력 FAISS 인덱스 및 메타 데이터가 저장되는 경로.
method (str) : 사용할 집계 방법. 옵션은 다음과 같습니다.
- 'average' , 'weighted_average' , 'geometric_mean' , 'harmonic_mean' , 'centroid' , 'pca' , 'median' , 'trimmed_mean' , 'max_pooling' , 'min_pooling' , 'entropy_weighted_average' , 'attentive_pooling' , 'tukeys_biweight' , 'exemplar' .
weights (List 또는 NP.NDARRAY, 선택 사항) : weighted_average 방법의 가중치.
trim_percentage (float, 옵션) : trimmed_mean 의 양쪽 끝에서 트림하는 분수. 0에서 0.5 미만이어야합니다.
weights (List 또는 NP.NDARRAY, 선택 사항) : weighted_average 방법의 가중치.

의존성

다음 패키지가 설치되어 있는지 확인하십시오.

FAISS : FAISS 인덱스 처리.
Numpy : 수치 계산의 경우.
Scipy : 통계 기능의 경우.
Scikit-Learn : PCA 및 K-MEANS 클러스터링 용.
Langchain : 문서 상점 및 벡터 매장을 처리합니다.

다음을 사용하여 종속성을 설치할 수 있습니다.

pip install faiss-cpu numpy scipy scikit-learn langchain

참고 : GPU 버전의 FAISS를 선호하는 경우 faiss-cpu faiss-gpu 로 교체하십시오.

기여

기부금을 환영합니다! 풀 요청을 제출하거나 GitHub 저장소에서 문제를 열어주십시오.

기고 할 때 코드가 다음 지침을 준수하는지 확인하십시오.

PEP 8 코딩 표준을 따르십시오.
docstrings 및 필요한 경우 의견을 포함하십시오.
새로운 기능 또는 버그 수정에 대한 단위 테스트를 작성하십시오.
변경 사항을 반영하도록 문서를 업데이트하십시오.

특허

이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오.

추가 메모

Langchain 사용 :
- 이 라이브러리는 Langchain의 FAISS Vector Store와 호환됩니다. Langchain과 통합 할 때 임베딩 및 인덱스가 일관되게 처리되어 있는지 확인하십시오.

확장하다

추가 정보

버전 1.0.0
유형 기타 소스코드
업데이트 시간 2025-05-27
크기 9.83KB
출처 Github

faiss_vector_aggregator

FAISS 임베딩 집합 라이브러리

목차

특징

설치

용법

예 1 : 간단한 평균 집계

예 2 : 가중 평균 집계

예 3 : 주요 구성 요소 분석 (PCA) 집계

예 4 : 중심 집계 (K- 평균)

예 5 : 세심한 풀링 집계

집계 방법

매개 변수

의존성

기여

특허

추가 메모

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

YuQue_Book_Download

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

리화 데이터 분석 엔진 무료 버전 3.0_search_navigation_collection_여론_순위_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express