Das Ziel des Projekts ist es, die Ähnlichkeit zwischen Texten zu berechnen und doppelte Texte mithilfe der Verschiebungsmethode zu finden. Das Projekt enthält zwei Phasen:
Texteinbettungen
Ähnlichkeitssuche mit Vector Database (Milvus)
Zunächst werden Sätze mit Satztransformator in Einbettung umgewandelt, die den bidirektionalen Kontext (Bert) berücksichtigen, und nimmt den Durchschnitt aller Sätze in einem Text ein. Auf diese Weise werden semantische Bedeutung unstrukturierter Daten aus dem Text extrahiert. Texte mit ähnlichen Inhalten sind im mehrdimensionalen Einbettungsraum näher. Die Metrik der Cosinus -Ähnlichkeit wird verwendet, um die Ähnlichkeit zwischen Texten zu vergleichen.

Die Ähnlichkeit der Kosinus zwischen zwei Einbettungsvektoren kann wie folgt berechnet werden.
cos (θ) = (a • b) / (‖ ‖ ‖ * ‖b‖)

Die Milvus -Vektor -Datenbank wurde entwickelt, um hochdimensionale Vektor -Einbettungen zu speichern und zu verwalten und zu verwalten. Es wird verwendet, um die Ähnlichkeitssuche zu beschleunigen. Milvus wird mit Docker Compose installiert. Details finden Sie im folgenden Link:
https://milvus.io/docs/v2.0.x/install_standalone-docker.md