Descargar gsdmm - Descargar código fuente de gsdmm

gsdmm

Otro código fuente

1.0.0

Descargar

GSDMM: clúster de texto corto

Este proyecto implementa el algoritmo de muestreo Gibbs para un modelo de mezcla de Dirichlet de Yin y Wang 2014 para la agrupación de documentos de texto cortos. Algunas ventajas de este algoritmo:

Requiere solo una K de límite superior en el número de grupos
Con una buena selección de parámetros, el modelo converge rápidamente
Espacio eficiente y escalable

Este proyecto es una implementación de referencia fácil de leer de GSDMM: no planeo mantenerlo a menos que haya demanda. Sin embargo, estoy manteniendo activamente la versión de óxido mucho más rápida de GSDMM aquí.

El proceso del grupo de películas

En su artículo, los autores introducen un modelo conceptual simple para explicar el GSDMM llamado Proceso de grupo de películas.

Imagine que un profesor lidera una clase de cine. Al comienzo de la clase, los estudiantes son asignados al azar a K tablas. Antes de que comience la clase, los estudiantes hacen listas de sus películas favoritas. El profesor lee repetidamente el papel de clase. Cada vez que se llama al nombre del alumno, el estudiante debe seleccionar una nueva tabla que satisfaga una o ambas de las siguientes condiciones:

La nueva tabla tiene más estudiantes que la tabla actual.
La nueva mesa tiene estudiantes con listas similares de películas favoritas.

Siguiendo estos pasos de manera consistente, podríamos esperar que los estudiantes finalmente lleguen a una configuración de tabla "óptima".

Uso

Para usar un proceso de grupo de películas para agrupar textos cortos, primero inicialice un cinegrocesprocess:

 from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 )

Es importante elegir siempre que K sea mayor que la cantidad de grupos que espera que existan en sus datos, ya que el algoritmo nunca puede devolver más que K clústeres.

Para adaptarse al modelo:

 y = mgp . fit ( docs )

Cada documento en docs debe ser una lista única de tokens que se encuentran en su documento de texto corto. Esta implementación no admite contar tokens con multiplicidad (que generalmente tiene poco valor en documentos de texto cortos).

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-04-18
tamaño 8.29KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo