Proyek ini mengimplementasikan algoritma pengambilan sampel GIBBS untuk model campuran Dirichlet Yin dan Wang 2014 untuk pengelompokan dokumen teks pendek. Beberapa keuntungan dari algoritma ini:
K BOUND atas pada jumlah clusterProyek ini adalah implementasi referensi GSDMM yang mudah dibaca - Saya tidak berencana untuk mempertahankannya kecuali ada permintaan. Namun saya secara aktif mempertahankan versi GSDMM yang jauh lebih cepat di sini.
Dalam makalah mereka, penulis memperkenalkan model konseptual sederhana untuk menjelaskan GSDMM yang disebut proses grup film.
Bayangkan seorang profesor memimpin kelas film. Di awal kelas, para siswa secara acak ditugaskan ke K Tabel. Sebelum kelas dimulai, para siswa membuat daftar film favorit mereka. Profesor berulang kali membaca peran kelas. Setiap kali nama siswa dipanggil, siswa harus memilih tabel baru yang memenuhi satu atau kedua kondisi berikut:
Dengan mengikuti langkah -langkah ini secara konsisten, kami mungkin berharap bahwa siswa akhirnya tiba di konfigurasi tabel "optimal".
Untuk menggunakan proses grup film untuk mengelompokkan teks pendek, pertama -tama inisialisasi MovigiProprocess:
from gsdmm import MovieGroupProcess
mgp = MovieGroupProcess ( K = 8 , alpha = 0.1 , beta = 0.1 , n_iters = 30 ) Penting untuk selalu memilih K menjadi lebih besar dari jumlah kelompok yang Anda harapkan ada dalam data Anda, karena algoritma tidak pernah dapat mengembalikan lebih dari kluster K
Agar sesuai dengan model:
y = mgp . fit ( docs ) Setiap dokumen dalam docs harus merupakan daftar unik token yang ditemukan dalam dokumen teks pendek Anda. Implementasi ini tidak mendukung penghitungan token dengan multiplisitas (yang umumnya memiliki sedikit nilai dalam dokumen teks pendek).