Download do gsdmm - Download do código fonte gsdmm

gsdmm

Outro código-fonte

1.0.0

Baixar

GSDMM: cluster de texto curto

Este projeto implementa o algoritmo de amostragem de Gibbs para um modelo de mistura Dirichlet de Yin e Wang 2014 para o agrupamento de documentos de texto curto. Algumas vantagens deste algoritmo:

Requer apenas um limite superior K no número de clusters
Com boa seleção de parâmetros, o modelo converge rapidamente
Espaço eficiente e escalável

Este projeto é uma referência fácil de ler a implementação do GSDMM - não pretendo mantê -lo, a menos que haja demanda. No entanto, estou mantendo ativamente a versão de ferrugem muito mais rápida do GSDMM aqui.

O processo do grupo cinematográfico

Em seu artigo, os autores introduzem um modelo conceitual simples para explicar o GSDMM chamado Processo de Grupo de Cilme.

Imagine um professor liderando uma aula de cinema. No início da turma, os alunos são designados aleatoriamente para as tabelas K Antes do início das aulas, os alunos fazem listas de seus filmes favoritos. O professor lê repetidamente o papel da classe. Cada vez que o nome do aluno é chamado, o aluno deve selecionar uma nova tabela que satisfaça uma ou ambas as seguintes condições:

A nova tabela tem mais alunos do que a tabela atual.
A nova tabela tem alunos com listas semelhantes de filmes favoritos.

Seguindo essas etapas de forma consistente, podemos esperar que os alunos cheguem a uma configuração de tabela "ideal".

Uso

Para usar um processo de grupo de cinema para agrupar textos curtos, inicialize primeiro um filmegrouppprocess:

 from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 )

É importante sempre escolher K para ser maior do que o número de clusters que você espera existir em seus dados, pois o algoritmo nunca pode retornar mais do que K clusters.

Para se ajustar ao modelo:

 y = mgp . fit ( docs )

Cada documento nos docs deve ser uma lista única de tokens encontrados em seu documento de texto curto. Essa implementação não suporta tokens de contagem com multiplicidade (que geralmente possui pouco valor em documentos de texto curto).

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-18
tamanho 8.29KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos