Tujuan dari proyek ini adalah untuk menghitung kesamaan antar teks, dan menemukan teks duplikat menggunakan metode tresholding. Proyek berisi dua tahap:
Teks Embeddings
Pencarian Kesamaan Menggunakan Database Vektor (MILVUS)
Pertama-tama, kalimat dikonversi menjadi embeddings menggunakan transformator kalimat yang mempertimbangkan konteks bi-directional (Bert), dan mengambil rata-rata semua kalimat dalam teks. Dengan cara ini makna semantik dari data yang tidak terstruktur diekstraksi dari teks. Teks yang memiliki konten serupa lebih dekat dalam ruang embedding multi-dimensi. Metrik kesamaan kosinus digunakan untuk membandingkan kesamaan antara teks.

Kesamaan kosinus antara dua vektor yang menanamkan dapat dihitung sebagai berikut.
cos (θ) = (a • b) / (‖A‖ * ‖B‖)

Basis data Milvus Vector dirancang untuk menyimpan dan mengelola, dan mengindeks embeddings vektor dimensi tinggi. Ini digunakan untuk mempercepat pencarian kesamaan. Milvus diinstal menggunakan Docker Compose. Detail dapat ditemukan di tautan berikut:
https://milvus.io/docs/v2.0.x/install_standalone-docker.md