Téléchargement gsdmm - Téléchargement du code source gsdmm

gsdmm

Autre code source

1.0.0

Télécharger

GSDMM: clustering de texte court

Ce projet met en œuvre l'algorithme d'échantillonnage GIBBS pour un modèle de mélange Dirichlet de Yin et Wang 2014 pour le regroupement de documents texte courts. Quelques avantages de cet algorithme:

Il ne nécessite qu'une limite supérieure K sur le nombre de clusters
Avec une bonne sélection de paramètres, le modèle converge rapidement
Espace efficace et évolutif

Ce projet est une implémentation de référence facile à lire de GSDMM - je ne prévois pas le maintenir à moins qu'il n'y ait une demande. Je maintiens cependant activement la version rouille beaucoup plus rapide de GSDMM ici.

Le processus de groupe de films

Dans leur article, les auteurs introduisent un modèle conceptuel simple pour expliquer le GSDMM appelé le processus de groupe de films.

Imaginez qu'un professeur dirige une classe de film. Au début de la classe, les élèves sont assignés au hasard aux tables K Avant le début des cours, les élèves font des listes de leurs films préférés. Le professeur lit à plusieurs reprises le rôle de classe. Chaque fois que le nom de l'élève est appelé, l'étudiant doit sélectionner un nouveau tableau satisfaisant l'une ou les deux conditions suivantes:

Le nouveau tableau compte plus d'étudiants que le tableau actuel.
La nouvelle table a des étudiants avec des listes similaires de films préférés.

En suivant ces étapes de manière cohérente, nous pourrions nous attendre à ce que les étudiants finissent par arriver à une configuration de table "optimale".

Usage

Pour utiliser un processus de groupe de films pour regrouper des textes courts, initialisez d'abord un film GROUPPROCESS:

 from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 )

Il est important de toujours choisir K pour être plus grand que le nombre de clusters que vous attendez dans vos données, car l'algorithme ne peut jamais retourner plus que les clusters K

Pour s'adapter au modèle:

 y = mgp . fit ( docs )

Chaque document dans docs doit être une liste unique de jetons trouvés dans votre court document texte. Cette implémentation ne prend pas en charge le comptage des jetons avec la multiplicité (qui a généralement peu de valeur dans les documents texte courts).

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-04-18
taille 8.29KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout