gsdmmダウンロードgsdmmソースコードのダウンロード

gsdmm

その他のソースコード

1.0.0

ダウンロード

GSDMM：短いテキストクラスタリング

このプロジェクトは、短いテキスト文書のクラスタリングのために、Yin and Wang 2014のDirichlet混合モデルのGibbsサンプリングアルゴリズムを実装しています。このアルゴリズムのいくつかの利点：

クラスターの数に上限Kのみが必要です
優れたパラメーター選択により、モデルは迅速に収束します
スペース効率が高くスケーラブル

このプロジェクトは、GSDMMの読みやすい参照実装です。需要がない限り、維持する予定はありません。しかし、私はここでGSDMMのはるかに高速な錆バージョンを積極的に維持しています。

映画グループのプロセス

彼らの論文では、著者は、映画グループプロセスと呼ばれるGSDMMを説明するための簡単な概念モデルを紹介しています。

教授が映画のクラスを率いていると想像してください。クラスの開始時に、生徒はKテーブルにランダムに割り当てられます。クラスが始まる前に、学生はお気に入りの映画のリストを作成します。教授はクラスの役割を繰り返し読みます。学生の名前が呼び出されるたびに、学生は次の条件のいずれかまたは両方を満たす新しいテーブルを選択する必要があります。

新しいテーブルには、現在のテーブルよりも多くの学生がいます。
新しいテーブルには、好きな映画の同様のリストを持つ学生がいます。

これらの手順に一貫して従うことにより、学生は最終的に「最適な」テーブル構成に到達することが期待されます。

使用法

ムービーグループプロセスを使用して短いテキストをクラスター化するには、最初にムービーグロップロケスを初期化します。

 from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 )

アルゴリズムはKクラスター以上に戻ることはできないため、常にデータに存在するクラスターの数よりも大きくなるようにK選択することが重要です。

モデルに適合するには：

 y = mgp . fit ( docs )

docsの各ドキュメントは、短いテキストドキュメントにあるトークンの一意のリストでなければなりません。この実装は、多重性のあるトークンのカウントをサポートするものではありません（一般に、短いテキストドキュメントではほとんど価値がありません）。

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-18
サイズ 8.29KB
から Github

gsdmm

GSDMM：短いテキストクラスタリング

映画グループのプロセス

使用法

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express