TopClus Download - TopClus Source Code Download

TopClus

كود الذكاء الاصطناعي

1.0.0

تنزيل

Topclus

الكود المصدري المستخدم لاكتشاف الموضوع من خلال تجميع المساحة الكامنة لتمثيلات نموذج اللغة المسبق ، المنشورة في www 2022.

متطلبات

مطلوب وحدة معالجة الرسومات واحدة على الأقل لتشغيل الرمز.

قبل التشغيل ، تحتاج أولاً إلى تثبيت الحزم المطلوبة عن طريق كتابة الأوامر التالية (باستخدام بيئة افتراضية يوصى بها):

 pip3 install -r requirements.txt

تحتاج أيضًا إلى تنزيل الموارد التالية في NLTK:

 import nltk
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('universal_tagset')

ملخص

TopClus هي طريقة اكتشاف موضوع غير خاضعة للإشراف تقوم بتصوير الكلمات والمستندات والمواضيع في مساحة كروية كامنة مستمدة من تمثيلات نموذج اللغة المسبق.

تشغيل الموضوع اكتشاف

البرنامج النصي للإدخال هو src/trainer.py وسيتم عرض معاني وسيطات سطر الأوامر عند الكتابة

 python src/trainer.py -h

سيتم كتابة نتائج اكتشاف الموضوع إلى results_${dataset} .

نحن نقدم اثنين من البرامج النصية مثال nyt.sh و yelp.sh لتشغيل اكتشاف الموضوع في نيويورك تايمز وشركة مراجعة YELP المستخدمة في الورقة ، على التوالي. تحتاج أولاً إلى استخراج الملفات النصية من ملفات Tarball .tar.gz ضمن datasets/nyt ومجموعات datasets/yelp .

يمكن أن تتوقع الحصول على نتائج مثل ما يلي (معرفات الموضوع عشوائي):

 On New York Times:
Topic 20: months,weeks,days,decades,years,hours,decade,seconds,moments,minutes
Topic 28: weapons,missiles,missile,nuclear,grenades,explosions,explosives,launcher,bombs,bombing
Topic 30: healthcare,medical,medicine,physicians,patients,health,hospitals,bandages,medication,physician
Topic 41: economic,commercially,economy,business,industrial,industry,market,consumer,trade,commerce
Topic 46: senate,senator,congressional,legislators,legislatures,ministry,legislature,minister,ministerial,parliament
Topic 72: government,administration,governments,administrations,mayor,gubernatorial,mayoral,mayors,public,governor
Topic 77: aircraft,airline,airplane,airlines,voyage,airplanes,aviation,planes,spacecraft,flights
Topic 88: baseman,outfielder,baseball,innings,pitchers,softball,inning,basketball,shortstop,pitcher

 On Yelp Review:
Topic 1: steamed,roasted,fried,shredded,seasoned,sliced,frozen,baked,canned,glazed
Topic 15: nice,cozy,elegant,polite,charming,relaxing,enjoyable,pleasant,helpful,luxurious
Topic 16: spicy,fresh,creamy,stale,bland,salty,fluffy,greasy,moist,cold
Topic 17: flavor,texture,flavors,taste,quality,smells,tastes,flavour,scent,ingredients
Topic 20: japanese,german,australian,moroccan,russian,greece,italian,greek,asian,
Topic 40: drinks,beers,beer,wine,beverages,alcohol,beverage,vodka,champagne,wines
Topic 55: horrible,terrible,shitty,awful,dreadful,worst,worse,disgusting,filthy,rotten
Topic 75: strawberry,berry,onion,peppers,tomato,onions,potatoes,vegetable,mustard,garlic

تشغيل مجموعة المستندات

سيتم حفظ تضمينات المستند الكامن على results_${dataset}/latent_doc_emb.pt التي يمكن استخدامها كميزات لخوارزميات التجميع (على سبيل المثال ، K-means).

إذا كان لديك ملصقات مستندات الحقيقة ، فيمكنك الحصول على نتائج تقييم مجموعات المستندات عن طريق تمرير ملف تسمية المستند وملف تضمين المستند الكامن المحفوظ إلى وظيفة cluster_eval في src/utils.py . على سبيل المثال:

 from src.utils import TopClusUtils
utils = TopClusUtils()
utils.cluster_eval(label_path="datasets/nyt/label_topic.txt", emb_path="results_nyt/latent_doc_emb.pt")

تشغيل على مجموعات بيانات جديدة

لتنفيذ الرمز على مجموعة بيانات جديدة ، تحتاج إلى ذلك

قم بإنشاء دليل يسمى your_dataset ضمن datasets .
قم بإعداد texts.txt نصية نصية your_dataset
قم بتشغيل src/trainer.py مع وسيطات سطر الأوامر المناسبة (عادة ما تكون القيم الافتراضية نقاط بداية جيدة).

الاستشهادات

يرجى الاستشهاد بالورقة التالية إذا وجدت الرمز مفيدًا لبحثك.

 @inproceedings{meng2022topic,
  title={Topic Discovery via Latent Space Clustering of Pretrained Language Model Representations},
  author={Meng, Yu and Zhang, Yunyi and Huang, Jiaxin and Zhang, Yu and Han, Jiawei},
  booktitle={The Web Conference},
  year={2022},
}

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2025-09-08
الحجم 55.33MB
من Github

تطبيقات ذات صلة

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
ML stack

كود الذكاء الاصطناعي

1.0.0
awesome free chatgpt

كود الذكاء الاصطناعي

1.0.0
pywin_contextmenu

كود الذكاء الاصطناعي

Version update
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل