ينفذ هذا المشروع خوارزمية أخذ عينات Gibbs لنموذج خليط Dirichlet من Yin و Wang 2014 لتجميع المستندات النصية القصيرة. بعض مزايا هذه الخوارزمية:
K على عدد المجموعاتهذا المشروع سهل القراءة للتنفيذ المرجعي لـ GSDMM - لا أخطط للحفاظ عليه ما لم يكن هناك طلب. ومع ذلك ، فإنني أحافظ بنشاط على إصدار الصدأ الأسرع بكثير من GSDMM هنا.
في ورقتهم ، يقدم المؤلفون نموذجًا مفاهيميًا بسيطًا لشرح GSDMM يسمى عملية مجموعة الفيلم.
تخيل أن الأستاذ يقود فصل الأفلام. في بداية الفصل ، يتم تعيين الطلاب بشكل عشوائي لجداول K قبل بدء الفصل ، يقوم الطلاب بعمل قوائم بأفلامهم المفضلة. البروفيسور يقرأ مرارا وتكرار الدور الطبقي. في كل مرة يتم فيها استدعاء اسم الطالب ، يجب على الطالب تحديد جدول جديد يرضي أحد الشروط التالية أو كليهما:
باتباع هذه الخطوات باستمرار ، قد نتوقع أن يصل الطلاب في النهاية إلى تكوين الجدول "الأمثل".
لاستخدام عملية مجموعة أفلام لتجميع النصوص القصيرة ، قم أولاً بتهيئة معالجة فيلم:
from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 ) من المهم أن تختار دائمًا K ليكون أكبر من عدد المجموعات التي تتوقع وجودها في بياناتك ، حيث أن الخوارزمية لا يمكن أن تعود أبدًا أكثر من مجموعات K
لتناسب النموذج:
y = mgp . fit ( docs ) يجب أن يكون كل مستند في docs قائمة فريدة من الرموز الموجودة في مستند النص القصير الخاص بك. لا يدعم هذا التنفيذ حساب الرموز مع التعدد (الذي يكون له قيمة ضئيلة بشكل عام في مستندات نصية قصيرة).