L'objectif du projet est de calculer la similitude entre les textes et de trouver des textes en double à l'aide de la méthode Tresholding. Le projet contient deux étapes:
Texte des intérêts
Recherche de similitude à l'aide de la base de données vectorielle (milvus)
Tout d'abord, les phrases sont converties en intégres en utilisant un transformateur de phrase qui considèrent le contexte bidirectionnel (Bert) et prend la moyenne de toutes les phrases dans un texte. De cette façon, la signification sémantique des données non structurées est extraite du texte. Les textes ayant un contenu similaire sont plus proches dans l'espace d'incorporation multidimensionnel. La métrique de similitude en cosinus est utilisée pour comparer la similitude entre les textes.

La similitude du cosinus entre deux vecteurs d'incorporation peut être calculée comme suit.
cos (θ) = (a • b) / (‖a »* ‖b‖)

La base de données vectorielle Milvus est conçue pour stocker et gérer, et indexer des intégres vectoriels de grande dimension. Il est utilisé pour accélérer la recherche de similitude. Milvus est installé à l'aide de Docker Compose. Les détails peuvent être trouvés dans le lien suivant:
https://milvus.io/docs/v2.0.x/install_standalone-docker.md