Vector Database Milvus скачать - Vector Database Milvus исходный код скачать

Vector Database Milvus

Другой исходный код

1.0.0

Скачать

Дубликат обнаружения

Цель проекта - рассчитать сходство между текстами и найти дублирующиеся тексты с использованием метода Tresholding. Проект содержит два этапа:

Текст встраивания
Поиск сходства с использованием векторной базы данных (Milvus)

Текст встраивания

Прежде всего, предложения преобразуются в встраивание с использованием трансформатора предложений, которые рассматривают двунаправленный контекст (BERT), и принимает среднее значение всех предложений в тексте. Таким образом, семантическое значение неструктурированных данных извлекается из текста. Тексты, имеющие сходное содержание, находятся ближе в многомерном пространстве встраивания. Метрика сходства косинуса используется для сравнения сходства между текстами.

Сходство косинуса между двумя встроенными векторами может быть рассчитано следующим образом.

cos (θ) = (a • b) / (‖a‖ * ‖b‖)

Милвус

База данных Vector Milvus предназначена для хранения и управления, а также индекс высокомерных векторных векторных встроений. Он используется для ускорения поиска сходства. Милвус устанавливается с помощью Docker Compose. Подробности можно найти в следующей ссылке:

https://milvus.io/docs/v2.0.x/install_standalone-docker.md

Расширять

Дополнительная информация