gsdmm
1.0.0
該項目實現了Yin和Wang 2014的Dirichlet混合物模型的Gibbs採樣算法,用於簡短文檔的聚類。該算法的一些優勢:
K該項目易於閱讀GSDMM的參考實現 - 除非有需求,否則我不打算維護它。但是,我在這裡積極維護GSDMM的生鏽版本更快。
在他們的論文中,作者引入了一個簡單的概念模型,用於解釋稱為電影組過程的GSDMM。
想像一位教授正在領導電影班。在課程開始時,學生將隨機分配到K表。上課開始之前,學生們列出了自己喜歡的電影。教授反复閱讀班級角色。每次稱呼學生的名字時,學生都必須選擇一個滿足以下條件的新表格:
通過始終如一地遵循這些步驟,我們可能希望學生最終達到“最佳”表配置。
要使用電影組過程來群集短文,請首先初始化MovieGrouPocess:
from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 )始終選擇K比您期望的群集數量大,這一點很重要,因為該算法永遠不會返回比K簇更多。
適合模型:
y = mgp . fit ( docs ) docs中的每個文檔都必須是簡短文檔中發現的唯一令牌列表。此實現不支持具有多重性的計數令牌(通常在短文檔中幾乎沒有價值)。