إنه يعكس الغرض الرئيسي من الكود ، وهو إجراء بحث دلالي على مجموعة بيانات من المستندات النصية باستخدام FAISS للفهرسة ومشفر الجملة العالمي لتوليد التضمينات.
في هذا الرمز:
نحضر مجموعة بيانات 20 مجموعة أخبار ، وهي مجموعة من المستندات التي تمتد إلى مواضيع مختلفة.
نقوم بتعامل مع كل مستند عن طريق إزالة رؤوس البريد الإلكتروني والعناوين والعلامات والأرقام ، وتحويل النص إلى أحرف صغيرة للتوحيد.
نحن نستخدم مشفر الجملة العالمي لإنشاء التضمينات ، وتحويل كل مستند إلى تمثيل رقمي ثابت الطول يلتقط معناه الدلالي.
نقوم ببناء فهرس FAISS ، ومكتبة بحث سريعة التشابه ، ونضيف تضمينات المستند لتمكين البحث الفعال في التشابه.
نحدد وظيفة البحث التي تقوم بتعليقات المستخدم قبل المعالجة ، وتنشئ التضمينات ، واسترداد المستندات الأكثر تشابهًا من الفهرس.
نوضح الوظيفة مع استفسار مثال ("دراجة نارية") ، مع عرض النتائج العليا المرتبة بالتشابه.