O objetivo do projeto é calcular a similaridade entre os textos e encontrar textos duplicados usando o método de aquecimento. O projeto contém dois estágios:
Incorporação de texto
Pesquisa de similaridade usando o banco de dados Vector (MILVUS)
Primeiro de tudo, as frases são convertidas em incorporações usando o transformador de frases que consideram o contexto bidirecional (BERT) e toma a média de todas as frases em um texto. Dessa maneira, o significado semântico de dados não estruturados é extraído do texto. Os textos com conteúdo semelhante estão mais próximos no espaço de incorporação multidimensional. A métrica de similaridade de cosseno é usada para comparar a semelhança entre os textos.

A similaridade de cosseno entre dois vetores de incorporação pode ser calculada da seguinte maneira.
cos (θ) = (a • b) / ("a " * "b")

O banco de dados do Milvus Vector foi projetado para armazenar e gerenciar e indexar incorporações de vetor de alta dimensão. É utilizado para acelerar a pesquisa de similaridade. Milvus é instalado usando o Docker Compose. Os detalhes podem ser encontrados no seguinte link:
https://milvus.io/docs/v2.0.x/install_standalone-docker.md