الهدف من المشروع هو حساب التشابه بين النصوص ، وإيجاد نصوص مكررة باستخدام طريقة Tresholding. يحتوي المشروع على مرحلتين:
تضمينات النص
البحث عن التشابه باستخدام قاعدة بيانات المتجه (MILVUS)
بادئ ذي بدء ، يتم تحويل الجمل إلى تضمينات باستخدام محول الجملة الذي يعتبر السياق ثنائي الاتجاه (BERT) ، ويأخذ متوسط جميع الجمل في النص. وبهذه الطريقة ، يتم استخراج المعنى الدلالي للبيانات غير المهيكلة من النص. النصوص التي لها محتوى مماثل أقرب إلى مساحة التضمين متعددة الأبعاد. يتم استخدام مقياس تشابه جيب التمام لمقارنة التشابه بين النصوص.

يمكن حساب تشابه جيب التمام بين ناقلات التضمين على النحو التالي.
cos (θ) = (a • b) / (‖a‖ * ‖b‖)

تم تصميم قاعدة بيانات Milvus Vector لتخزين وإدارة ، وفهرسة التضمينات المتجهات عالية الأبعاد. يتم استخدامه لتسريع البحث عن التشابه. تم تثبيت Milvus باستخدام Docker Compose. يمكن العثور على التفاصيل في الرابط التالي:
https://milvus.io/docs/v2.0.x/install_standalone-docker.md