gsdmm
1.0.0
该项目实现了Yin和Wang 2014的Dirichlet混合物模型的Gibbs采样算法,用于简短文档的聚类。该算法的一些优势:
K该项目易于阅读GSDMM的参考实现 - 除非有需求,否则我不打算维护它。但是,我在这里积极维护GSDMM的生锈版本更快。
在他们的论文中,作者引入了一个简单的概念模型,用于解释称为电影组过程的GSDMM。
想象一位教授正在领导电影班。在课程开始时,学生将随机分配到K表。上课开始之前,学生们列出了自己喜欢的电影。教授反复阅读班级角色。每次称呼学生的名字时,学生都必须选择一个满足以下条件的新表格:
通过始终如一地遵循这些步骤,我们可能希望学生最终达到“最佳”表配置。
要使用电影组过程来群集短文,请首先初始化MovieGrouPocess:
from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 )始终选择K比您期望的群集数量大,这一点很重要,因为该算法永远不会返回比K簇更多。
适合模型:
y = mgp . fit ( docs ) docs中的每个文档都必须是简短文档中发现的唯一令牌列表。此实现不支持具有多重性的计数令牌(通常在短文档中几乎没有价值)。