เป้าหมายของโครงการคือการคำนวณความคล้ายคลึงกันระหว่างข้อความและค้นหาข้อความที่ซ้ำกันโดยใช้วิธีการ tresholding โครงการมีสองขั้นตอน:
การฝังข้อความ
การค้นหาความคล้ายคลึงกันโดยใช้ฐานข้อมูลเวกเตอร์ (Milvus)
ก่อนอื่นประโยคจะถูกแปลงเป็น embeddings โดยใช้หม้อแปลงประโยคที่พิจารณาบริบทสองทิศทาง (BERT) และใช้ค่าเฉลี่ยของประโยคทั้งหมดในข้อความ ด้วยวิธีนี้ความหมายทางความหมายของข้อมูลที่ไม่มีโครงสร้างจะถูกดึงออกมาจากข้อความ ข้อความที่มีเนื้อหาที่คล้ายกันอยู่ใกล้กับพื้นที่ฝังตัวหลายมิติ ตัวชี้วัดความคล้ายคลึงกันของโคไซน์ใช้เพื่อเปรียบเทียบความคล้ายคลึงกันระหว่างข้อความ

ความคล้ายคลึงกันของโคไซน์ระหว่างเวกเตอร์การฝังสองตัวสามารถคำนวณได้ดังนี้
cos (θ) = (a • b) / (‖a‖ * ‖B‖)

ฐานข้อมูล Milvus Vector ได้รับการออกแบบมาเพื่อจัดเก็บและจัดการและดัชนีการฝังเวกเตอร์มิติที่สูง มันถูกใช้เพื่อเร่งการค้นหาความคล้ายคลึงกัน Milvus ติดตั้งโดยใช้ Docker Compose รายละเอียดสามารถพบได้ในลิงค์ต่อไปนี้:
https://milvus.io/docs/v2.0.x/install_standalone-docker.md