Download TopClus - Download TopClus código -fonte

TopClus

Código-Fonte de IA

1.0.0

Baixar

TopClus

O código -fonte usado para a descoberta de tópicos por meio de cluster de espaço latente de representações de modelo de idioma pré -treinamento , publicado em www 2022.

Requisitos

Pelo menos uma GPU é necessária para executar o código.

Antes de executar, você precisa primeiro instalar os pacotes necessários digitando os seguintes comandos (usando um ambiente virtual é recomendado):

 pip3 install -r requirements.txt

Você também precisa baixar os seguintes recursos no NLTK:

 import nltk
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('universal_tagset')

Visão geral

O TopClus é um método de descoberta de tópicos não supervisionado que modela as palavras, documentos e tópicos em conjunto em um espaço esférico latente derivado de representações de modelos de idiomas pré -treinados.

Descoberta de tópico em execução

O script de entrada é src/trainer.py e os significados dos argumentos da linha de comando serão exibidos ao digitar

 python src/trainer.py -h

Os resultados da descoberta de tópicos serão gravados nos results_${dataset} .

Fornecemos dois scripts de exemplo nyt.sh e yelp.sh para a descoberta de tópicos em execução no New York Times e na Yelp Review Corpora usada no artigo, respectivamente. Você precisa primeiro extrair os arquivos de texto dos arquivos de tarball .tar.gz em datasets/nyt e datasets/yelp .

Você pode esperar obter resultados como o seguinte (os IDs de tópico são aleatórios):

 On New York Times:
Topic 20: months,weeks,days,decades,years,hours,decade,seconds,moments,minutes
Topic 28: weapons,missiles,missile,nuclear,grenades,explosions,explosives,launcher,bombs,bombing
Topic 30: healthcare,medical,medicine,physicians,patients,health,hospitals,bandages,medication,physician
Topic 41: economic,commercially,economy,business,industrial,industry,market,consumer,trade,commerce
Topic 46: senate,senator,congressional,legislators,legislatures,ministry,legislature,minister,ministerial,parliament
Topic 72: government,administration,governments,administrations,mayor,gubernatorial,mayoral,mayors,public,governor
Topic 77: aircraft,airline,airplane,airlines,voyage,airplanes,aviation,planes,spacecraft,flights
Topic 88: baseman,outfielder,baseball,innings,pitchers,softball,inning,basketball,shortstop,pitcher

 On Yelp Review:
Topic 1: steamed,roasted,fried,shredded,seasoned,sliced,frozen,baked,canned,glazed
Topic 15: nice,cozy,elegant,polite,charming,relaxing,enjoyable,pleasant,helpful,luxurious
Topic 16: spicy,fresh,creamy,stale,bland,salty,fluffy,greasy,moist,cold
Topic 17: flavor,texture,flavors,taste,quality,smells,tastes,flavour,scent,ingredients
Topic 20: japanese,german,australian,moroccan,russian,greece,italian,greek,asian,
Topic 40: drinks,beers,beer,wine,beverages,alcohol,beverage,vodka,champagne,wines
Topic 55: horrible,terrible,shitty,awful,dreadful,worst,worse,disgusting,filthy,rotten
Topic 75: strawberry,berry,onion,peppers,tomato,onions,potatoes,vegetable,mustard,garlic

Executando o cluster de documentos

As incorporações de documentos latentes serão salvas nos results_${dataset}/latent_doc_emb.pt que podem ser usados como recursos para agrupar algoritmos (por exemplo, K-means).

Se você tiver rótulos de documentos da verdade, você poderá obter os resultados da avaliação de cluster de documentos, passando o arquivo do rótulo do documento e o arquivo de incorporação de documentos latentes salvo para a função cluster_eval em src/utils.py . Por exemplo:

 from src.utils import TopClusUtils
utils = TopClusUtils()
utils.cluster_eval(label_path="datasets/nyt/label_topic.txt", emb_path="results_nyt/latent_doc_emb.pt")

Executando em novos conjuntos de dados

Para executar o código em um novo conjunto de dados, você precisa

Crie um diretório chamado your_dataset nos datasets .
Prepare um texto de texto texts.txt (um documento por linha) sob your_dataset como o corpus alvo para a descoberta de tópicos.
Execute src/trainer.py com argumentos de linha de comando apropriados (os valores padrão geralmente são bons pontos de partida).

Citações

Cite o artigo a seguir, se você achar útil o código para sua pesquisa.

 @inproceedings{meng2022topic,
  title={Topic Discovery via Latent Space Clustering of Pretrained Language Model Representations},
  author={Meng, Yu and Zhang, Yunyi and Huang, Jiaxin and Zhang, Yu and Han, Jiawei},
  booktitle={The Web Conference},
  year={2022},
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-08
tamanho 55.33MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos