TopClus下载 - 源代码TopClus下载

TopClus

Ai源码

1.0.0

下载

topclus

通过预审计的语言模型表示的潜在空间聚类用于主题发现的源代码，于www 2022发表。

要求

运行代码需要至少一个GPU。

在运行之前，您需要首先通过输入以下命令来安装所需的软件包（建议使用虚拟环境）：

 pip3 install -r requirements.txt

您还需要在NLTK中下载以下资源：

 import nltk
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('universal_tagset')

概述

TopClus是一种无监督的主题发现方法，它可以在审前的语言模型表示的潜在球形空间中共同建模单词，文档和主题。

运行主题发现

输入脚本是src/trainer.py ，命令行参数的含义将在键入时显示

 python src/trainer.py -h

主题发现结果将写入results_${dataset} 。

我们提供了两个示例脚本nyt.sh和yelp.sh ，以分别在《纽约时报》和本文中使用的Yelp评论CORPORA上运行主题。您需要首先从datasets/nyt和datasets/yelp下的.tar.gz Tarball文件中提取文本文件。

您可以期望像以下结果一样获得结果（主题ID是随机的）：

 On New York Times:
Topic 20: months,weeks,days,decades,years,hours,decade,seconds,moments,minutes
Topic 28: weapons,missiles,missile,nuclear,grenades,explosions,explosives,launcher,bombs,bombing
Topic 30: healthcare,medical,medicine,physicians,patients,health,hospitals,bandages,medication,physician
Topic 41: economic,commercially,economy,business,industrial,industry,market,consumer,trade,commerce
Topic 46: senate,senator,congressional,legislators,legislatures,ministry,legislature,minister,ministerial,parliament
Topic 72: government,administration,governments,administrations,mayor,gubernatorial,mayoral,mayors,public,governor
Topic 77: aircraft,airline,airplane,airlines,voyage,airplanes,aviation,planes,spacecraft,flights
Topic 88: baseman,outfielder,baseball,innings,pitchers,softball,inning,basketball,shortstop,pitcher

 On Yelp Review:
Topic 1: steamed,roasted,fried,shredded,seasoned,sliced,frozen,baked,canned,glazed
Topic 15: nice,cozy,elegant,polite,charming,relaxing,enjoyable,pleasant,helpful,luxurious
Topic 16: spicy,fresh,creamy,stale,bland,salty,fluffy,greasy,moist,cold
Topic 17: flavor,texture,flavors,taste,quality,smells,tastes,flavour,scent,ingredients
Topic 20: japanese,german,australian,moroccan,russian,greece,italian,greek,asian,
Topic 40: drinks,beers,beer,wine,beverages,alcohol,beverage,vodka,champagne,wines
Topic 55: horrible,terrible,shitty,awful,dreadful,worst,worse,disgusting,filthy,rotten
Topic 75: strawberry,berry,onion,peppers,tomato,onions,potatoes,vegetable,mustard,garlic

运行文档群集

潜在文档嵌入将保存到results_${dataset}/latent_doc_emb.pt可用作聚类算法的功能（例如，k-means）。

如果您有地面真相文档标签，则可以通过将文档标签文件和保存的潜在文档嵌入文件传递给src/utils.py中的cluster_eval函数来获得文档群集评估结果。例如：

 from src.utils import TopClusUtils
utils = TopClusUtils()
utils.cluster_eval(label_path="datasets/nyt/label_topic.txt", emb_path="results_nyt/latent_doc_emb.pt")

在新数据集上运行

要在新数据集上执行代码，您需要

在datasets集下创建一个名为your_dataset的目录。
在your_dataset下准备一个文本语料库texts.txt （每行）作为主题发现的目标语料库。
使用适当的命令行参数运行src/trainer.py （默认值通常是良好的起点）。

引用

如果您发现代码有助于研究，请引用以下论文。

 @inproceedings{meng2022topic,
  title={Topic Discovery via Latent Space Clustering of Pretrained Language Model Representations},
  author={Meng, Yu and Zhang, Yunyi and Huang, Jiaxin and Zhang, Yu and Han, Jiawei},
  booktitle={The Web Conference},
  year={2022},
}

展开

附加信息