faiss_vector_aggregator Download - faiss_vector_aggregator download do código -fonte

faiss_vector_aggregator

Outro código-fonte

1.0.0

Baixar

Biblioteca de agregação de incorporação FAISS

Esta biblioteca Python fornece um conjunto de métodos avançados para agregar várias incorporações associadas a um único documento ou entidade em uma única incorporação representativa. Ele suporta uma ampla gama de técnicas de agregação, da média simples a métodos sofisticados, como PCA e agrupamento atencioso.

Índice

Características
Instalação
Uso
- Exemplo 1: agregação média simples
- Exemplo 2: agregação média ponderada
- Exemplo 3: Agregação de Análise de Componentes Principais (PCA)
- Exemplo 4: Agregação centróide (K-Means)
- Exemplo 5: agregação atenciosa
Métodos de agregação
Parâmetros
Dependências
Contribuindo
Licença

Características

Média simples : calcule a média aritmética das incorporações.
Média ponderada : Calcule uma média ponderada de incorporações.
Média geométrica : calcule a média geométrica entre as incorporações (para valores positivos).
Média harmônica : calcule a média harmônica entre as incorporações (para valores positivos).
Centroid (K-Means) : Use agrupamento de K-Means para encontrar o centróide das incorporações.
Análise de componentes principais (PCA) : use o PCA para reduzir as incorporações a um único vetor representativo.
Mediana : Calcule a mediana do elemento de incorporação.
Média aparada : Calcule a média após aparar outliers.
Max-Pooling : Pegue o valor máximo para cada dimensão entre as incorporações.
Min-pooling : pegue o valor mínimo para cada dimensão entre as incorporações.
Média ponderada por entropia : incorporações de peso por sua entropia (conteúdo da informação).
Agrupamento atencioso : use um mecanismo de atenção para aprender os pesos para combinar incorporações.
Tukey's Biweight : um método robusto para descendentes de peso baixo.
Exemple : selecione a incorporação que melhor representa o grupo, minimizando a distância média.

Instalação

Para instalar o pacote, você pode usar o PIP:

pip install faiss_vector_aggregator

Uso

Abaixo estão exemplos que demonstram como usar a biblioteca para agregar incorporações usando métodos diferentes.

Exemplo 1: agregação média simples

Suponha que você tenha uma coleção de incorporações armazenadas em um índice FAISS e deseja agregá -las pelos IDs de documentos associados usando a média simples.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

Parâmetros:
- input_folder : caminho para a pasta que contém o índice de entrada e metadados de entrada.
- column_name : o campo de metadados pelo qual agregar incorporações (por exemplo, 'id' ).
- output_folder : caminho em que o índice de saída de saída e os metadados serão salvos.
- method="average" : especifica o método de agregação.

Exemplo 2: agregação média ponderada

Se você tiver pesos diferentes para as incorporações, poderá aplicar uma média ponderada para dar mais importância a certas incorporações.

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

Parâmetros:
- weights : uma lista ou matriz de pesos correspondentes a cada incorporação.
- method="weighted_average" : Especifica o método médio ponderado.

Exemplo 3: Agregação de Análise de Componentes Principais (PCA)

Para reduzir as incorporações de alta dimensão a um único vetor representativo usando PCA:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

Parâmetros:
- method="pca" : especifica que o PCA deve ser usado para agregação.

Exemplo 4: Agregação centróide (K-Means)

Use o cluster de K-Means para encontrar o centróide de incorporação para cada ID do documento.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

Parâmetros:
- method="centroid" : Especifica que o agrupamento K-Means deve ser usado.

Exemplo 5: agregação atenciosa

Para usar um mecanismo de atenção para agregar incorporações:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

Parâmetros:
- method="attentive_pooling" : especifica o método de agrupamento atencioso.

Métodos de agregação

Abaixo está uma descrição detalhada de cada método de agregação suportado pela biblioteca:

Média : Calcule a média aritmética das incorporações.
PESOD_AVERAGE : Calcule uma média ponderada de incorporações. Requer weights .
geométrico_mean : calcule a média geométrica em todas as incorporações. Apenas para valores positivos.
Harmonic_Mean : Calcule a média harmônica nas incorporações. Apenas para valores positivos.
Mediana : Calcule a mediana do elemento de incorporação.
TRIMED_MEAN : Calcule a média após aparar uma porcentagem de valores discrepantes. Use o parâmetro trim_percentage .
Centroid : Use agrupamento de K-Means para encontrar o centróide das incorporações.
PCA : Use a análise de componentes principais para projetar incorporação no primeiro componente principal.
Exemple : selecione a incorporação que minimiza a distância média dos cosseno a outros.
max_pooling : pegue o valor máximo para cada dimensão entre as incorporações.
min_pooling : pegue o valor mínimo para cada dimensão entre as incorporações.
Entropy_weighted_average : incorporação de peso por sua entropia (conteúdo da informação).
attention_pooling : use um mecanismo de atenção baseado na semelhança com as incorporações agregadas.
Tukeys_biweight : um método robusto para descendentes de peso baixo nas incorporações.

Parâmetros

input_folder (str): caminho para a pasta que contém o índice de entrada de FAISs de entrada ( index.faiss ) e metadados ( index.pkl ).
column_name (STR): o campo de metadados pelo qual agregar incorporações (por exemplo, 'id' ).
output_folder (str): caminho em que o índice de saída e os metadados de saída será salvo.
method (STR): o método de agregação a ser usado. As opções incluem:
- 'average' , 'weighted_average' , 'geometric_mean' , 'harmonic_mean' , 'centroid' , 'pca' , 'median' , ' 'trimmed_mean' , 'max_pooling' , 'min_pooling' , 'entropy_weighted_average' , 'attentive_pooling' , 'tukeys_biweight' , 'exemplar' .
weights (list ou np.ndarray, opcional): pesos para o método weighted_average .
trim_percentage (FLOAT, OPCIONAL): Fração para aparar de cada extremidade para trimmed_mean . Deve estar entre 0 e menor que 0,5.
weights (list ou np.ndarray, opcional): pesos para o método weighted_average .

Dependências

Certifique -se de ter os seguintes pacotes instalados:

FAISS : Para lidar com índices FAISS.
Numpy : Para cálculos numéricos.
Scipy : para funções estatísticas.
Scikit-Learn : para agrupamento de PCA e K-Means.
Langchain : Para lidar com lojas de documentos e lojas de vetores.

Você pode instalar as dependências usando:

pip install faiss-cpu numpy scipy scikit-learn langchain

Nota: Substitua faiss-cpu pelo faiss-gpu se você preferir usar a versão GPU do FAISS.

Contribuindo

As contribuições são bem -vindas! Sinta -se à vontade para enviar uma solicitação de tração ou abrir um problema no repositório do GitHub.

Ao contribuir, verifique se o seu código adere às seguintes diretrizes:

Siga os padrões de codificação Pep 8.
Inclua Docstrings e comentários sempre que necessário.
Escreva testes de unidade para novos recursos ou correções de bug.
Atualize a documentação para refletir alterações.

Licença

Este projeto está licenciado sob a licença do MIT. Consulte o arquivo de licença para obter detalhes.

Notas adicionais

Uso com Langchain:
- Esta biblioteca é compatível com a loja de vetores FAISS de Langchain. Certifique -se de que suas incorporações e índices sejam tratados de forma consistente ao integrar com Langchain.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-05-27
tamanho 9.83KB
Vindo de Github

Aplicativos Relacionados

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Mecanismo de análise de dados Lihua versão gratuita 3.0_search_navigation_collection_public parecer_ranking_api

2022-06-28

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos