gsdmm
1.0.0
このプロジェクトは、短いテキスト文書のクラスタリングのために、Yin and Wang 2014のDirichlet混合モデルのGibbsサンプリングアルゴリズムを実装しています。このアルゴリズムのいくつかの利点:
Kのみが必要ですこのプロジェクトは、GSDMMの読みやすい参照実装です。需要がない限り、維持する予定はありません。しかし、私はここでGSDMMのはるかに高速な錆バージョンを積極的に維持しています。
彼らの論文では、著者は、映画グループプロセスと呼ばれるGSDMMを説明するための簡単な概念モデルを紹介しています。
教授が映画のクラスを率いていると想像してください。クラスの開始時に、生徒はKテーブルにランダムに割り当てられます。クラスが始まる前に、学生はお気に入りの映画のリストを作成します。教授はクラスの役割を繰り返し読みます。学生の名前が呼び出されるたびに、学生は次の条件のいずれかまたは両方を満たす新しいテーブルを選択する必要があります。
これらの手順に一貫して従うことにより、学生は最終的に「最適な」テーブル構成に到達することが期待されます。
ムービーグループプロセスを使用して短いテキストをクラスター化するには、最初にムービーグロップロケスを初期化します。
from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 )アルゴリズムはKクラスター以上に戻ることはできないため、常にデータに存在するクラスターの数よりも大きくなるようにK選択することが重要です。
モデルに適合するには:
y = mgp . fit ( docs ) docsの各ドキュメントは、短いテキストドキュメントにあるトークンの一意のリストでなければなりません。この実装は、多重性のあるトークンのカウントをサポートするものではありません(一般に、短いテキストドキュメントではほとんど価値がありません)。