Descarga de TopClus - Descarga TopClus

TopClus

Código Fuente de IA

1.0.0

Descargar

Topclus

El código fuente utilizado para el descubrimiento de temas a través de la agrupación espacial latente de representaciones de modelos de lenguaje previos a la aparición , publicado en www 2022.

Requisitos

Se requiere al menos una GPU para ejecutar el código.

Antes de ejecutar, primero debe instalar los paquetes requeridos escribiendo los siguientes comandos (se recomienda usar un entorno virtual)::

 pip3 install -r requirements.txt

También debe descargar los siguientes recursos en NLTK:

 import nltk
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('universal_tagset')

Descripción general

Topclus es un método de descubrimiento de temas no supervisado que modela conjuntamente palabras, documentos y temas en un espacio esférico latente derivado de representaciones del modelo de lenguaje previamente practicado.

Ejecutando el descubrimiento de temas

El script de entrada es src/trainer.py y los significados de los argumentos de la línea de comando se mostrarán al escribir

 python src/trainer.py -h

Los resultados del descubrimiento del tema se escribirán a results_${dataset} .

Proporcionamos dos scripts de ejemplo nyt.sh y yelp.sh para ejecutar el descubrimiento de temas sobre el New York Times y los corpus de revisión Yelp utilizados en el documento, respectivamente. Primero debe extraer los archivos de texto de los archivos de tarball .tar.gz en datasets/nyt y datasets/yelp .

Puede esperar obtener resultados como los siguientes (las ID de tema son aleatorias):

 On New York Times:
Topic 20: months,weeks,days,decades,years,hours,decade,seconds,moments,minutes
Topic 28: weapons,missiles,missile,nuclear,grenades,explosions,explosives,launcher,bombs,bombing
Topic 30: healthcare,medical,medicine,physicians,patients,health,hospitals,bandages,medication,physician
Topic 41: economic,commercially,economy,business,industrial,industry,market,consumer,trade,commerce
Topic 46: senate,senator,congressional,legislators,legislatures,ministry,legislature,minister,ministerial,parliament
Topic 72: government,administration,governments,administrations,mayor,gubernatorial,mayoral,mayors,public,governor
Topic 77: aircraft,airline,airplane,airlines,voyage,airplanes,aviation,planes,spacecraft,flights
Topic 88: baseman,outfielder,baseball,innings,pitchers,softball,inning,basketball,shortstop,pitcher

 On Yelp Review:
Topic 1: steamed,roasted,fried,shredded,seasoned,sliced,frozen,baked,canned,glazed
Topic 15: nice,cozy,elegant,polite,charming,relaxing,enjoyable,pleasant,helpful,luxurious
Topic 16: spicy,fresh,creamy,stale,bland,salty,fluffy,greasy,moist,cold
Topic 17: flavor,texture,flavors,taste,quality,smells,tastes,flavour,scent,ingredients
Topic 20: japanese,german,australian,moroccan,russian,greece,italian,greek,asian,
Topic 40: drinks,beers,beer,wine,beverages,alcohol,beverage,vodka,champagne,wines
Topic 55: horrible,terrible,shitty,awful,dreadful,worst,worse,disgusting,filthy,rotten
Topic 75: strawberry,berry,onion,peppers,tomato,onions,potatoes,vegetable,mustard,garlic

Ejecutando la agrupación de documentos

Las incrustaciones de documentos latentes se guardarán a results_${dataset}/latent_doc_emb.pt que se pueden usar como características para agrupar algoritmos (por ejemplo, k-means).

Si tiene etiquetas de documentos de verdad en tierra, puede obtener los resultados de la evaluación de la agrupación de documentos al pasar el archivo de etiqueta del documento y el archivo de incrustación de documento latente guardado en la función cluster_eval en src/utils.py . Por ejemplo:

 from src.utils import TopClusUtils
utils = TopClusUtils()
utils.cluster_eval(label_path="datasets/nyt/label_topic.txt", emb_path="results_nyt/latent_doc_emb.pt")

Ejecutando nuevos conjuntos de datos

Para ejecutar el código en un nuevo conjunto de datos, debe

Cree un directorio llamado your_dataset en datasets .
Prepare un texto de texto texts.txt (un documento por línea) bajo your_dataset como el corpus objetivo para el descubrimiento de temas.
Ejecute src/trainer.py con argumentos de línea de comando apropiados (los valores predeterminados suelen ser buenos puntos de inicio).

Citas

Cite el siguiente documento si encuentra útil el código para su investigación.

 @inproceedings{meng2022topic,
  title={Topic Discovery via Latent Space Clustering of Pretrained Language Model Representations},
  author={Meng, Yu and Zhang, Yunyi and Huang, Jiaxin and Zhang, Yu and Han, Jiawei},
  booktitle={The Web Conference},
  year={2022},
}

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-09-08
tamaño 55.33MB
Proviene de Github

Aplicaciones relacionadas

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo