El objetivo del proyecto es calcular la similitud entre los textos y encontrar textos duplicados utilizando el método de trasfiamiento. El proyecto contiene dos etapas:
Embedidos de texto
Búsqueda de similitud utilizando la base de datos Vector (MILVUS)
En primer lugar, las oraciones se convierten en incrustaciones utilizando transformador de oraciones que consideran el contexto bidireccional (BERT), y toma el promedio de todas las oraciones en un texto. De esta manera, el significado semántico de los datos no estructurados se extrae del texto. Los textos que tienen contenido similar están más cerca en el espacio de incrustación multidimensional. La métrica de similitud de coseno se usa para comparar la similitud entre los textos.

La similitud coseno entre dos vectores de incrustación se puede calcular de la siguiente manera.
cos (θ) = (a • b) / (‖a‖ * ‖b‖)

La base de datos de Milvus Vector está diseñada para almacenar y administrar, e indexar incrustaciones de vectores de alta dimensión. Se utiliza para acelerar la búsqueda de similitud. Milvus se instala usando Docker Compose. Los detalles se pueden encontrar en el siguiente enlace:
https://milvus.io/docs/v2.0.x/install_standalone-docker.md