Цель проекта - рассчитать сходство между текстами и найти дублирующиеся тексты с использованием метода Tresholding. Проект содержит два этапа:
Текст встраивания
Поиск сходства с использованием векторной базы данных (Milvus)
Прежде всего, предложения преобразуются в встраивание с использованием трансформатора предложений, которые рассматривают двунаправленный контекст (BERT), и принимает среднее значение всех предложений в тексте. Таким образом, семантическое значение неструктурированных данных извлекается из текста. Тексты, имеющие сходное содержание, находятся ближе в многомерном пространстве встраивания. Метрика сходства косинуса используется для сравнения сходства между текстами.

Сходство косинуса между двумя встроенными векторами может быть рассчитано следующим образом.
cos (θ) = (a • b) / (‖a‖ * ‖b‖)

База данных Vector Milvus предназначена для хранения и управления, а также индекс высокомерных векторных векторных встроений. Он используется для ускорения поиска сходства. Милвус устанавливается с помощью Docker Compose. Подробности можно найти в следующей ссылке:
https://milvus.io/docs/v2.0.x/install_standalone-docker.md