โครงการนี้ใช้อัลกอริทึมการสุ่มตัวอย่าง Gibbs สำหรับรูปแบบการผสม Dirichlet ของ Yin และ Wang 2014 สำหรับการจัดกลุ่มของเอกสารข้อความสั้น ๆ ข้อดีบางประการของอัลกอริทึมนี้:
K บนจำนวนของกลุ่มโครงการนี้เป็นวิธีอ้างอิงที่อ่านได้ง่ายของ GSDMM - ฉันไม่ได้วางแผนที่จะรักษาไว้เว้นแต่จะมีความต้องการ อย่างไรก็ตามฉันยังคงรักษา GSDMM เวอร์ชันสนิมที่เร็วกว่ามากที่นี่
ในบทความของพวกเขาผู้เขียนแนะนำรูปแบบแนวคิดง่ายๆสำหรับการอธิบาย GSDMM ที่เรียกว่ากระบวนการกลุ่มภาพยนตร์
ลองนึกภาพอาจารย์คนหนึ่งกำลังเป็นผู้นำชั้นเรียนภาพยนตร์ ในช่วงเริ่มต้นของชั้นเรียนนักเรียนจะได้รับการสุ่มให้กับตาราง K ก่อนที่ชั้นเรียนจะเริ่มขึ้นนักเรียนจะทำรายการภาพยนตร์เรื่องโปรดของพวกเขา อาจารย์อ่านบทบาทชั้นเรียนซ้ำ ๆ ทุกครั้งที่มีการเรียกชื่อนักเรียนนักเรียนจะต้องเลือกตารางใหม่ที่น่าพอใจหนึ่งหรือทั้งสองเงื่อนไขต่อไปนี้:
โดยทำตามขั้นตอนเหล่านี้อย่างสม่ำเสมอเราอาจคาดหวังว่าในที่สุดนักเรียนจะมาถึงการกำหนดค่าตารางที่ดีที่สุด
หากต้องการใช้กระบวนการกลุ่มภาพยนตร์เพื่อจัดกลุ่มข้อความสั้น ๆ ก่อนอื่นให้เริ่มต้น MovieGroupprocess:
from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 ) สิ่งสำคัญคือต้องเลือก K ให้ใหญ่กว่าจำนวนกลุ่มที่คุณคาดหวังอยู่ในข้อมูลของคุณเสมอเนื่องจากอัลกอริทึมไม่สามารถส่งคืนได้มากกว่า K กลุ่ม
เพื่อให้พอดีกับรุ่น:
y = mgp . fit ( docs ) เอกสารแต่ละฉบับใน docs จะต้องเป็นรายการโทเค็นที่ไม่ซ้ำกันที่พบในเอกสารข้อความสั้น ๆ ของคุณ การใช้งานนี้ไม่รองรับโทเค็นการนับที่มีหลายหลาก (ซึ่งโดยทั่วไปมีค่าน้อยในเอกสารข้อความสั้น ๆ )