faiss_vector_aggregator скачать - faiss_vector_aggregator исходный код скачать

faiss_vector_aggregator

Другой исходный код

1.0.0

Скачать

Библиотека агрегации Faiss Entgeddings

Эта библиотека Python предоставляет набор передовых методов для агрегирования нескольких встроений, связанных с одним документом или сущностью, в единое репрезентативное внедрение. Он поддерживает широкий спектр методов агрегации, от простого усреднения до сложных методов, таких как PCA и внимательный пул.

Функции
Установка
Использование
- Пример 1: Простая средняя агрегация
- Пример 2: средневзвешенная агрегация
- Пример 3: Агрегация основных компонентов (PCA)
- Пример 4: Центроидная агрегация (K-Means)
- Пример 5: внимательная агрегация объединения
Методы агрегации
Параметры
Зависимости
Внося
Лицензия

Функции

Простое среднее : вычислите среднее арифметическое среднее встроения.
Взвешенное : вычислить средневзвешенное встроение.
Геометрическое среднее : вычислить среднее геометрическое среднее между встроениями (для положительных значений).
Гармоническое среднее : вычислить гармоническое среднее значение между встроениями (для положительных значений).
Centroid (K-Means) : используйте кластеризацию K-средних, чтобы найти центроид встроенных.
Анализ основных компонентов (PCA) : используйте PCA, чтобы уменьшить встраивание в один репрезентативный вектор.
Медиана : Вычислить медиану в порядок встроенных.
Тримированное среднее : вычислить среднее значение после обрезки выбросов.
Максимальное количество .
Минь-плюсы : Возьмите минимальное значение для каждого измерения по всему встраиванию.
Взвешенное энтропия Среднее : Веса встраивания по энтропии (информационный контент).
Внимательный объединение : используйте механизм внимания, чтобы узнать вес для сочетания внедрения.
Тьюки в веселье : надежный метод для понижающих выбросов.
Пример : выберите встроение, которое лучше всего представляет группу, минимизируя среднее расстояние.

Установка

Чтобы установить пакет, вы можете использовать PIP:

pip install faiss_vector_aggregator

Использование

Ниже приведены примеры, демонстрирующие, как использовать библиотеку для агрегирования встроений с использованием различных методов.

Пример 1: Простая средняя агрегация

Предположим, у вас есть коллекция встроенных введений, хранящихся в индексе FAISS, и вы хотите агрегировать их по связанным идентификаторам документов, используя простое усреднение.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

Параметры:
- input_folder : путь к папке, содержащей входной индекс FAISS и метаданные.
- column_name : поле метаданных, с помощью которого можно агрегировать внедрения (например, 'id' ).
- output_folder : путь, где будут сохранены выходной индекс и метаданные.
- method="average" : указывает метод агрегации.

Пример 2: средневзвешенная агрегация

Если у вас есть разные веса для встраиваний, вы можете применить средневзвешенное значение, чтобы придать большее значение определенным вставкам.

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

Параметры:
- weights : список или массив весов, соответствующих каждому внедрению.
- method="weighted_average" : указывает средний метод.

Пример 3: Агрегация основных компонентов (PCA)

Чтобы уменьшить высокомерные встраиваемые до одного репрезентативного вектора с использованием PCA:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

Параметры:
- method="pca" : указывает, что PCA следует использовать для агрегации.

Пример 4: Центроидная агрегация (K-Means)

Используйте кластеризацию K-средних, чтобы найти центроид встраиваний для каждого идентификатора документа.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

Параметры:
- method="centroid" : указывает, что K-средняя кластеризация должна использоваться.

Пример 5: внимательная агрегация объединения

Чтобы использовать механизм внимания для агрегирования внедрения:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

Параметры:
- method="attentive_pooling" : указывает внимательный метод объединения.

Методы агрегации

Ниже приведено подробное описание каждого метода агрегации, поддерживаемого библиотекой:

В среднем : вычислить среднее арифметическое среднее встроения.
Weensed_average : вычислить средневзвешенное взвешенное встроение. Требуется weights .
geometric_mean : вычислить среднее геометрическое среднее между встроениями. Только для положительных значений.
Harmonic_mean : Вычислить среднее гармонику в рамках встраиваний. Только для положительных значений.
Медиана : Вычислить медиану в порядок встроенных.
TRIMMED_MEAN : Вычислите среднее значение после обрезки процента выбросов. Используйте параметр trim_percentage .
Centroid : используйте кластеризацию K-средних, чтобы найти центроид встроенных.
PCA : Используйте анализ основных компонентов для проекта встраивания на первый основной компонент.
Пример : выберите внедрение, которое минимизирует среднее расстояние косинуса до других.
MAX_POOLING : Возьмите максимальное значение для каждого измерения по всему встраиванию.
min_pooling : Возьмите минимальное значение для каждого измерения по всему встраиванию.
Entropy_weighted_average : Веса встраивания по энтропии (информационный контент).
altentive_pooling : используйте механизм внимания, основанный на сходстве с агрегатными встроениями.
tukeys_biweight : надежный метод для понижающих выбросов во вставках.

Параметры

input_folder (str): путь к папке, содержащей индекс входа Faiss ( index.faiss ) и метаданные ( index.pkl ).
column_name (str): поле метаданных, с помощью которого можно агрегировать внедрения (например, 'id' ).
output_folder (str): путь, в котором будут сохранены выходной индекс и метаданные.
method (Str): метод агрегации для использования. Варианты включают:
- 'average' , 'weighted_average' , 'geometric_mean' , 'harmonic_mean' , 'centroid' , 'pca' , 'median' , ' 'trimmed_mean' , 'max_pooling' , 'min_pooling' , 'entropy_weighted_average' , 'attentive_pooling' , ' 'tukeys_biweight' 'exemplar' .
weights (список или NP.NDarray, необязательно): веса для метода weighted_average .
trim_percentage (float, необязательно): дробь для обрезки с каждого конца для trimmed_mean . Должно быть между 0 и менее 0,5.
weights (список или NP.NDarray, необязательно): веса для метода weighted_average .

Зависимости

Убедитесь, что у вас установлены следующие пакеты:

FAISS : для обработки индексов FAISS.
Numpy : для численных вычислений.
Scipy : для статистических функций.
Scikit-learn : для кластеризации PCA и K-Means.
Langchain : для обработки хранилищ документов и векторных магазинов.

Вы можете установить зависимости, используя:

pip install faiss-cpu numpy scipy scikit-learn langchain

ПРИМЕЧАНИЕ. Замените faiss-cpu на faiss-gpu если вы предпочитаете использовать версию GPU Faiss.

Внося

Взносы приветствуются! Пожалуйста, не стесняйтесь отправлять запрос на привлечение или открыть проблему в репозитории GitHub.

При вклад, пожалуйста, убедитесь, что ваш код придерживается следующих рекомендаций:

Следуйте стандартам кодирования PEP 8.
Включите Docstrings и комментарии, где это необходимо.
Напишите модульные тесты для новых функций или исправлений ошибок.
Обновите документацию, чтобы отразить изменения.

Лицензия

Этот проект лицензирован по лицензии MIT. Смотрите файл лицензии для получения подробной информации.

Дополнительные примечания

Использование с Langchain:
- Эта библиотека совместима с векторным магазином FAISS 's Langchain. Убедитесь, что ваши встраивания и индексы обрабатываются последовательно при интеграции с Langchain.

Расширять

Дополнительная информация