Selamat datang di repositori GitHub saya untuk menganalisis ulasan Google Play Store Vidio . Bagi mereka yang mungkin tidak terbiasa, Vidio adalah platform streaming Indonesia dan layanan OTT (over-the-top) terbesar di negara ini. Tujuan dari proyek ini adalah untuk mempelajari sentimen publik tentang Vidio dan mendapatkan wawasan yang berharga. Salah satu metode yang saya gunakan adalah menganalisis ulasan dari sumber -sumber seperti Google Play Store.
Proyek ini melibatkan langkah-langkah berikut: Mengikis semua ulasan dari Google Play Store menggunakan perpustakaan Google-Play-Scraper , mengimplementasikan pemodelan topik untuk mengkategorikan ulasan di bawah topik spesifik dengan bantuan dari model Turbo GPT-3.5 , menyimpan ulasan yang diperoleh dalam database, dan menyajikannya melalui dasbor streamlit . Seluruh proses ini otomatis menggunakan tindakan GitHub . Rincian lebih lanjut akan dibagikan di bagian berikut.
(kembali ke atas)
Tugas pertama adalah memperoleh data untuk dianalisis, khususnya ulasan Vidio. Untungnya, ada perpustakaan Python yang disebut Google-Play-Scraper yang menyederhanakan proses mengikis ulasan dari Google Play Store untuk aplikasi apa pun. Awalnya, saya mengikis semua ulasan yang tersedia hingga saat memulai proyek ini. Selanjutnya, saya memprogram skrip untuk mengikis 5000 ulasan setiap hari dan menyaring ulasan yang dikumpulkan pada hari sebelumnya.
Tahap ini merupakan inti dari proyek. Cukup mengumpulkan ulasan saja tidak memberikan nilai substansial. Untuk mendapatkan wawasan yang lebih dalam, saya menerapkan pemodelan topik khusus pada ulasan negatif dan netral. Tujuannya adalah untuk lebih memahami keluhan umum yang dimiliki pengguna tentang Vidio dengan tujuan memanfaatkan temuan untuk perbaikan di masa depan.
Awalnya, saya mencoba menggunakan LDA (alokasi Dirichlet laten) untuk pemodelan topik. Namun, itu terbukti sangat tidak akurat, menghasilkan banyak kesalahan klasifikasi. Masalah ini tampaknya dikaitkan dengan aspek bahasa. Banyak teknik terkait bahasa unggul dalam bahasa Inggris, tetapi tidak dalam bahasa Indonesia, yang tidak didukung secara luas. Selain itu, kehadiran said Indonesia dan berbagai variasi tipografi semakin memperumit masalah ini.
Akibatnya, saya memutuskan untuk menggunakan salah satu model Openai, mengingat pelatihan ekstensif mereka tentang kumpulan data besar. Saya memilih model turbo GPT-3.5 , yang membutuhkan biaya, tetapi relatif terjangkau. Jumlah biaya sekitar $ 0,002 per 1000 token atau sekitar 750 kata. Hasilnya secara signifikan lebih baik daripada yang diperoleh dengan menggunakan LDA, meskipun tidak sepenuhnya sempurna. Fine-tuning lebih lanjut dapat dipertimbangkan, tetapi itu akan menjadi tugas untuk upaya di masa depan.
Setelah ulasan diperoleh, langkah selanjutnya yang terlibat menyimpannya. Salah satu opsi adalah memanfaatkan Google BigQuery, yang banyak digunakan. Namun, setelah pertimbangan yang cermat, saya memutuskan untuk menggunakan MongoDB Atlas . Ini menawarkan rencana gratis yang memungkinkan penyimpanan hingga 5 GB, yang terbukti lebih dari cukup dalam kasus ini. Perlu dicatat bahwa menggunakan MongoDB memerlukan pendekatan kueri yang sedikit berbeda dibandingkan dengan SQL, karena MongoDB adalah database NoSQL.
Untuk menyajikan temuan dengan cara yang terorganisir dan menarik secara visual, saya mengintegrasikan database MongoDB ATLAS dengan dasbor yang lancar . Streamlit terbukti menjadi pilihan yang ideal, karena menawarkan opsi kustomisasi dan mendukung berbagai perpustakaan Python, termasuk Plotly, yang digunakan untuk menghasilkan plot interaktif dalam proyek ini.
Dengan semua komponen yang ada, tugas yang tersisa adalah mengotomatiskan seluruh proses setiap hari. Mengulangi langkah -langkah ini secara manual setiap hari tidak layak. Untungnya, ada beberapa opsi otomatisasi yang tersedia, dengan tindakan GitHub menjadi salah satunya. Saya mengkonfigurasi tindakan github untuk menjalankan alur kerja proyek setiap hari pada jam 9 pagi UTC+7.
(kembali ke atas)
Proyek ini menunjukkan pemanfaatan pemodelan topik untuk menganalisis ulasan aplikasi. Sementara ada banyak teknik, menggunakan GPT terbukti menjadi pilihan yang layak, terutama untuk bahasa selain bahasa Inggris. Adalah harapan saya bahwa repositori ini berfungsi sebagai referensi yang berharga bagi mereka yang melakukan tugas -tugas serupa di masa depan. Terima kasih telah membaca!
(kembali ke atas)