تعتبر نماذج تجميع المستندات القوية ضرورية لأنها يمكنها معالجة مجموعات كبيرة من المستندات بكفاءة. يمكن أن تكون هذه النماذج مفيدة في العديد من المجالات ، بما في ذلك الأبحاث العامة. يمكن أن يكون البحث من خلال شركة كبيرة من المنشورات مهمة بطيئة ومملة ؛ مثل هذه النماذج يمكن أن تقلل بشكل كبير من هذه المرة. قمنا بالتحقيق في الاختلافات المختلفة لنموذج BERT الذي تم تدريبه مسبقًا للعثور على أفضل قدرة على إنتاج تضمينات الكلمات لتمثيل المستندات داخل مجموعة أكبر. يتم تقليل هذه التضمينات في الأبعاد باستخدام PCA ومتجمعة مع K-Means لاكتساب نظرة ثاقبة النموذج يمكن أن يميز المواضيع داخل مجموعة أفضل. وجدنا أن Sbert كان أفضل نموذج لهذه المهمة من اختلافات Bert التي تم اختبارها.
المتطلبات الأساسية:
التبعيات: يستخدم المشروع مكتبات Python متعددة ، والتي يلزم تشغيل هذا الرمز. لتثبيت الرمز ، يرجى تشغيل مقتطف الرمز أدناه في موجه Anaconda.
pip install -r requirements.txt
Python Notebook: هناك دفاتر ملاحظات Python: [1]
يحتوي nlp_final_project_code.ipynb على قاعدة الكود لتقييم التضمينات النصية Bert للتجميع. لقد استخدمنا PCA لتقليل الأبعاد و K-Means للتجميع. يتم حساب التضمينات بشكل منفصل وتخزينها في ملف CSV في مجلد ./data .
في اختبار التشابه في جيب التمام بيرت. لهذا ، قمنا بتجميع الملفات يدويًا بناءً على محتواها 1) مجموعة من الملفات المماثلة و 2) مجموعة من الملفات المختلفة. ثم قمنا بقياس تشابه جيب التمام بين كل مجموعة. افترضنا أن تضمينات Bert يمكن أن تكتشف أوجه التشابه بين الوثيقة بناءً على تمثيلها المسبق. قمنا أيضًا بتقييم Sbert ، والتي أثبتت أنها توفر تمثيلًا أفضل من المتغيرات المختلفة لـ Bert.