Unduh OCTIS - Unduh Kode Sumber OCTIS

OCTIS

Kode sumber lainnya

1.0.0

Unduh

Octis: Mengoptimalkan dan membandingkan model topik sederhana!

Logo

OCTIS (mengoptimalkan dan membandingkan model topik sederhana) bertujuan untuk melatih, menganalisis dan membandingkan model topik, yang hiperparameter optimalnya diperkirakan dengan menggunakan pendekatan optimasi Bayesian. Pekerjaan ini telah diterima di trek demo EACL2021. Klik untuk membaca kertas!

Daftar isi

Memasang
Fitur utama
Contoh dan tutorial
- Beberapa tutorial di Medium:
Dataset dan preprocessing
- Muat dataset preprosesed
- Set data yang tersedia
- Muat dataset khusus
- Preprocess a dataset
Model topik dan evaluasi
- Latih model
- Model yang tersedia
- Mengevaluasi model
- Metrik yang tersedia
- Terapkan model Anda sendiri
Optimalisasi hyperparameter
Dasbor
Bagaimana mengutip pekerjaan kami
Tim
- Pimpinan Proyek dan Pengembangan
- Kontributor saat ini
- Kontributor masa lalu
Kredit

Memasang

Anda dapat menginstal Octis dengan perintah berikut:

 Pip Instal Octis

Anda dapat menemukan persyaratan dalam file persyaratan.txt.

Fitur utama

Preprocess Dataset Anda sendiri atau gunakan salah satu dataset tolok ukur yang sudah diwariskan
Model topik terkenal (baik klasik dan neural)
Evaluasi model Anda menggunakan metrik evaluasi canggih yang berbeda
Optimalkan hiperparameter model untuk metrik yang diberikan menggunakan optimasi Bayesian
Perpustakaan Python untuk penggunaan lanjutan atau dasbor web sederhana untuk memulai dan mengendalikan eksperimen optimasi

Contoh dan tutorial

Untuk dengan mudah memahami cara menggunakan octis, kami mengundang Anda untuk mencoba tutorial kami :)

Nama	Link
Cara Membangun Model Topik dan Mengevaluasi Hasil (LDA di 20NewSgroups)
Cara Mengoptimalkan Hyperparameter Model Topik Saraf (CTM pada M10)

Beberapa tutorial di Medium:

Dua panduan tentang cara menggunakan octis dengan contoh praktis:

Panduan Pemula untuk Octis Vol. 1 oleh Emil Rijcken
Panduan Pemula untuk Octis Vol. 2 oleh Emil Rijcken

Tutorial tentang pemodelan topik pada lirik lagu:

Octis - Masa Depan Pemodelan Topik oleh Nicolas Pogeant

Dataset dan preprocessing

Muat dataset preprosesed

Untuk memuat salah satu dataset yang sudah diproses sebagai berikut:

 from octis . dataset . dataset import Dataset
dataset = Dataset ()
dataset . fetch_dataset ( "20NewsGroup" )

Cukup gunakan salah satu nama dataset yang tercantum di bawah ini. CATATAN: Ini peka terhadap kasus!

Set data yang tersedia

Nama dalam Octis	Sumber	# Docs	# Kata-kata	# Label	Bahasa
20NewSgroup	20NewSgroup	16309	1612	20	Bahasa inggris
BBC_News	BBC-News	2225	2949	5	Bahasa inggris
Dblp	Dblp	54595	1513	4	Bahasa inggris
M10	M10	8355	1696	10	Bahasa inggris
Dbpedia_it	Dbpedia_it	4251	2047	5	Italia
Europarl_it	Europarl_it	3613	2000	Na	Italia

Muat dataset khusus

Jika tidak, Anda dapat memuat dataset preproses preproses khusus dengan cara berikut:

 from octis . dataset . dataset import Dataset
dataset = Dataset ()
dataset . load_custom_dataset_from_folder ( "../path/to/the/dataset/folder" )

Pastikan bahwa dataset dalam format berikut:

File corpus: file .tsv (dipisahkan tab) yang berisi hingga tiga kolom, yaitu dokumen, partitisi, dan label yang terkait dengan dokumen (opsional).
Kosakata: file .txt di mana setiap baris mewakili kata dari kosakata

Partisi dapat "melatih" untuk partisi pelatihan, "tes" untuk pengujian partisi, atau "val" untuk partisi validasi. Contoh dataset dapat ditemukan di sini: sample_dataset.

Penafian

Demikian pula dengan dataset TensorFlow dan perpustakaan NLP HuggingFace, kami baru saja mengunduh dan menyiapkan kumpulan data publik. Kami tidak meng -host atau mendistribusikan set data ini, menjamin kualitas atau keadilannya, atau mengklaim bahwa Anda memiliki lisensi untuk menggunakan dataset. Adalah tanggung jawab Anda untuk menentukan apakah Anda memiliki izin untuk menggunakan dataset di bawah lisensi dataset dan mengutip pemilik dataset yang tepat.

Jika Anda seorang pemilik dataset dan ingin memperbarui bagian mana pun dari itu, atau tidak ingin dataset Anda dimasukkan dalam perpustakaan ini, silakan menghubungi melalui masalah GitHub.

Jika Anda seorang pemilik dataset dan ingin memasukkan dataset Anda di perpustakaan ini, silakan hubungi melalui masalah GitHub.

Preprocess a dataset

Untuk preprocess dataset, impor kelas preprocessing dan gunakan metode preprocess_dataset.

 import os
import string
from octis . preprocessing . preprocessing import Preprocessing
os . chdir ( os . path . pardir )

# Initialize preprocessing
preprocessor = Preprocessing ( vocabulary = None , max_features = None ,
                             remove_punctuation = True , punctuation = string . punctuation ,
                             lemmatize = True , stopword_list = 'english' ,
                             min_chars = 1 , min_words_docs = 0 )
# preprocess
dataset = preprocessor . preprocess_dataset ( documents_path = r'..corpus.txt' , labels_path = r'..labels.txt' )

# save the preprocessed dataset
dataset . save ( 'hello_dataset' )

Untuk detail lebih lanjut tentang preprocessing, lihat contoh demo preprocessing di folder contoh.

Model topik dan evaluasi

Latih model

Untuk membangun model, memuat dataset yang diproses sebelumnya, mengatur model hyperparameters dan menggunakan train_model() untuk melatih model.

 from octis . dataset . dataset import Dataset
from octis . models . LDA import LDA

# Load a dataset
dataset = Dataset ()
dataset . load_custom_dataset_from_folder ( "dataset_folder" )

model = LDA ( num_topics = 25 )  # Create model
model_output = model . train_model ( dataset ) # Train the model

Jika dataset dipartisi, Anda dapat:

Latih model pada set pelatihan dan uji pada dokumen pengujian
Latih model dengan seluruh dataset, terlepas dari partisi apa pun.

Model yang tersedia

Nama	Pelaksanaan
CTM (Bianchi et al. 2021)	https://github.com/milanlproc/contextualized-topic-odels
ETM (Dieng et al. 2020)	https://github.com/adjidieng/etm
HDP (Blei et al. 2004)	https://radimrehurek.com/gensim/
LDA (Blei et al. 2003)	https://radimrehurek.com/gensim/
LSI (Landauer et al. 1998)	https://radimrehurek.com/gensim/
NMF (Lee dan Seung 2000)	https://radimrehurek.com/gensim/
Neurallda (Srivastava dan Sutton 2017)	https://github.com/estebandito22/pytorchavitm
Prodlda (Srivastava dan Sutton 2017)	https://github.com/estebandito22/pytorchavitm

Jika Anda menggunakan salah satu implementasi ini, pastikan untuk mengutip kertas yang tepat.

Jika Anda menerapkan model dan ingin memperbarui bagian mana pun, atau tidak ingin model Anda dimasukkan dalam perpustakaan ini, silakan hubungi masalah Github.

Jika Anda menerapkan model dan ingin memasukkan model Anda di perpustakaan ini, silakan hubungi melalui masalah GitHub. Jika tidak, jika Anda ingin memasukkan model sendiri, lihat bagian berikut.

Mengevaluasi model

Untuk mengevaluasi model, pilih metrik dan gunakan metode score() dari kelas metrik.

 from octis . evaluation_metrics . diversity_metrics import TopicDiversity

metric = TopicDiversity ( topk = 10 ) # Initialize metric
topic_diversity_score = metric . score ( model_output ) # Compute score of the metric

Metrik yang tersedia

Metrik Klasifikasi :
- F1-Score: F1Score(dataset)
- Precision: PrecisionScore(dataset)
- Recall: RecallScore(dataset)
- Akurasi: AccuracyScore(dataset)

Metrik koherensi :
- Koherensi UMass: Coherence(measure='u_mass')
- Koherensi C_V: Coherence(measure='c_v')
- Koherensi UCI: Coherence(measure='c_uci')
- Koherensi NPMI: Coherence(measure='c_npmi')
- Koherensi berbasis penyematan kata berpasangan: WECoherencePairwise()
- Centroid Koherensi Berbasis Tanah Kata: WECoherenceCentroid()

Metrik Keanekaragaman :
- Keragaman Topik: TopicDiversity()
- InvertedRBO: InvertedRBO()
- Pencocokan InvertedRBO Berbasis Tanah Kata: WordEmbeddingsInvertedRBO()
- Centroid InvertedRBO Berbasis Tanah: WordEmbeddingsInvertedRBOCentroid()
- Rasio Log Odds: LogOddsRatio()
- Divergence Kullback-Liebler: KLDivergence()

Metrik Kesamaan :
- Tumpang tindih bias-peringkat: RBO()
- Pencocokan RBO berbasis penyematan Word: WordEmbeddingsRBOMatch()
- Centroid RBO berbasis penyematan Word: WordEmbeddingsRBOCentroid()
- Kesamaan berpasangan berbasis kata embeddings: WordEmbeddingsPairwiseSimilarity()
- Kesamaan Centroid Berbasis Word Embeddings: WordEmbeddingsCentroidSimilarity()
- Kesamaan Jumlah Tertimbang Berbasis Tanah: WordEmbeddingsWeightedSumSimilarity()
- Kesamaan Jaccard berpasangan: PairwiseJaccardSimilarity()

Metrik Signifikansi Topik :
- KL Seragam: KL_uniform()
- Kl Vacuous: KL_vacuous()
- Latar belakang KL: KL_background()

Terapkan model Anda sendiri

Model mewarisi dari kelas AbstractModel yang didefinisikan dalam octis/model/model.py. Untuk membangun model Anda sendiri, kelas Anda harus mengganti metode train_model (diri, dataset, hyperparameters) yang selalu membutuhkan setidaknya objek dataset dan kamus hyperparameters sebagai input dan harus mengembalikan kamus dengan output model sebagai output.

Untuk lebih memahami cara kerja model, mari kita lihat implementasi LDA. Langkah pertama dalam mengembangkan model kustom adalah untuk menentukan kamus nilai hyperparameters default:

 hyperparameters = { 'corpus' : None , 'num_topics' : 100 , 'id2word' : None , 'alpha' : 'symmetric' ,
    'eta' : None , # ...
    'callbacks' : None }

Mendefinisikan nilai hyperparameters default memungkinkan pengguna untuk bekerja pada subset dari mereka tanpa harus menetapkan nilai untuk setiap parameter.

Langkah berikut adalah override train_model ():

 def train_model ( self , dataset , hyperparameters = {}, top_words = 10 ):

Metode LDA membutuhkan dataset, kamus hyperparameters dan argumen tambahan (opsional) yang digunakan untuk memilih berapa banyak kata yang paling signifikan untuk setiap topik.

Dengan default HyperParameters, yang dalam input dan dataset Anda harus dapat menulis kode Anda sendiri dan mengembalikan sebagai output kamus dengan setidaknya 3 entri:

Topik : Daftar kata -kata yang paling penting untuk topik (daftar daftar string).
Topik-kata-matriks : Matriks bobot NXV di mana n adalah jumlah topik dan V adalah panjang kosa kata.
Topic-Document-Matrix : Matriks bobot NXD di mana n adalah jumlah topik dan D adalah jumlah dokumen dalam korpus.

Jika model Anda mendukung partisi pelatihan/tes itu juga harus kembali:

Test-Topic-Document-Matrix : Matriks topik dokumen dari set uji.

Optimalisasi hyperparameter

Untuk mengoptimalkan model, Anda perlu memilih dataset, metrik dan ruang pencarian hyperparameters untuk dioptimalkan. Untuk jenis hyperparameter, kami menggunakan tipe scikit-optimize (https://scikit-optimize.github.io/stable/modules/space.html)

 from octis . optimization . optimizer import Optimizer
from skopt . space . space import Real

# Define the search space. To see which hyperparameters to optimize, see the topic model's initialization signature
search_space = { "alpha" : Real ( low = 0.001 , high = 5.0 ), "eta" : Real ( low = 0.001 , high = 5.0 )}

# Initialize an optimizer object and start the optimization.
optimizer = Optimizer ()
optResult = optimizer . optimize ( model , dataset , eval_metric , search_space , save_path = "../results" # path to store the results
                             number_of_call = 30 , # number of optimization iterations
                             model_runs = 5 ) # number of runs of the topic model
#save the results of th optimization in a csv file
optResult . save_to_csv ( "results.csv" )

Hasilnya akan memberikan nilai metrik yang paling terlihat dengan konfigurasi hyperparameter yang sesuai, dan hyperparameters dan nilai metrik untuk setiap iterasi optimasi. Untuk memvisualisasikan informasi ini, Anda harus mengatur atribut 'plot' dari Bayesian_optimization ke True.

Anda dapat menemukan lebih banyak di sini: pengoptimal readme

Dasbor

OCTIS mencakup antarmuka grafis yang ramah pengguna untuk membuat, memantau, dan melihat eksperimen. Mengikuti standar implementasi dataset, model dan metrik Dasbor akan secara otomatis memperbarui dan memungkinkan Anda untuk menggunakan implementasi khusus Anda sendiri.

Untuk menjalankan dasbor, Anda perlu mengkloning repo. Saat berada di direktori proyek menjalankan perintah berikut:

python OCTIS/dashboard/server.py

Browser akan terbuka dan Anda akan diarahkan ke dasbor. Di dasbor Anda bisa:

Buat eksperimen baru yang diselenggarakan dalam batch
Visualisasikan dan bandingkan semua percobaan
Visualisasikan Eksperimen Kustom
Kelola antrian percobaan

Bagaimana mengutip pekerjaan kami

Pekerjaan ini telah diterima di trek demo EACL 2021! Klik untuk membaca kertas! Jika Anda memutuskan untuk menggunakan sumber ini, silakan kutip:

 @Inproeding {Terragni2020OCTIS,
    title = {{octis}: Membandingkan dan mengoptimalkan model topik sederhana!},
    Penulis = {Terragni, Silvia dan Fersini, Elisabetta dan Galuzzi, Bruno Giovanni dan Tropeano, Pietro dan Candelieri, Antonio},
    tahun = {2021},
    booktitle = {Prosiding Konferensi ke -16 Bab Eropa Asosiasi Linguistik Komputasi: Demonstrasi Sistem},
    Bulan = APR,
    tahun = "2021",
    Penerbit = "Asosiasi Linguistik Komputasi",
    url = "https://www.aclweb.org/anthology/2021.eAcl-demos.31",
    halaman = "263--270",
}

@InprOcedings {dblp: conf/clic-it/terragnif21,
  penulis = {Silvia Terragni dan Elisabetta Fersini},
  Editor = {Elisabetta Fersini dan Marco Passarotti dan Viviana Patti},
  title = {{octis 2.0: mengoptimalkan dan membandingkan model topik dalam bahasa Italia bahkan
               Lebih sederhana!}},
  booktitle = {Prosiding konferensi Italia kedelapan tentang linguistik komputasi,
               CLIC-IT 2021, Milan, Italia, 26-28 Januari, 2022},
  Series = {{Ceur} Proses lokakarya},
  volume = {3033},
  publisher = {ceur-ws.org},
  tahun = {2021},
  url = {http://ceur-ws.org/vol-3033/paper55.pdf},
}

Tim

Pimpinan Proyek dan Pengembangan

Silvia Terragni <[email protected]>
Elisabetta Fersini <[email protected]>
Antonio Candelieri <[email protected]>

Kontributor saat ini

Pietro Tropeano <[email protected]> Arsitektur kerangka kerja, preprocessing, model topik, metrik evaluasi dan dasbor web
Bruno Galuzzi <[email protected]> Optimalisasi Bayesian
Silvia Terragni <[email protected]> Proyek keseluruhan

Kontributor masa lalu

Lorenzo famiglini <[email protected]> integrasi model saraf
Davide Pietrasanta <[email protected]> Bayesian Optimization

Kredit

Paket ini dibuat dengan cookiecutter dan templat proyek Audreyr/Cookiecutter-Pypackage. Terima kasih kepada semua pengembang yang merilis implementasi model topik mereka. Terima kasih khusus kepada Tenggaard yang membantu kami menemukan banyak bug di rilis Octis awal dan kepada Emil Rijcken yang dengan ramah menulis dua panduan tentang cara menggunakan octis :)

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-17
ukuran 12.71MB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua