歡迎來到我的GitHub存儲庫,以分析Vidio的Google Play商店評論。對於那些可能不熟悉的人來說,Vidio是印尼流媒體平台,也是該國最大的OTT(頂級)服務。該項目的目的是深入探究有關Vidio的公眾情緒並獲得寶貴的見解。我採用的一種方法是分析來自Google Play商店等來源的評論。
該項目涉及以下步驟:使用Google-play-Scraper庫從Google Play商店中刮除所有評論,實施主題建模,以在GPT-3.5 Turbo模型的幫助下對特定主題的評論進行分類,並將所獲得的評論存儲在數據庫中,並通過簡化的儀表板將其呈現。使用GitHub操作將整個過程自動化。更多詳細信息將在下一節中共享。
(返回到頂部)
第一個任務是獲取數據進行分析,特別是對Vidio的評論。幸運的是,有一個名為Google-play-Scraper的Python庫,它簡化了從Google Play商店刮擦評論的過程。最初,我在啟動該項目之前刮過了所有可用的評論。隨後,我將腳本編程為每天刮擦5000條評論,並過濾了前一天收集的評論。
這個階段構成了項目的核心。僅僅收集評論並不能提供實質性的價值。為了獲得更深入的見解,我專門針對負面和中立的評論實施了主題建模。目的是更好地理解用戶對VIDIO的普遍投訴,目的是利用這些發現進行將來的改進。
最初,我試圖使用LDA(潛在的Dirichlet分配)進行主題建模。但是,事實證明它是高度不准確的,導致了許多錯誤分類。這個問題似乎歸因於語言方面。許多與語言相關的技術在英語中表現出色,但在印尼語中卻不是廣泛支持。此外,印尼語和各種印刷變化的存在進一步使問題變得複雜。
因此,鑑於他們在大型數據集上進行了廣泛的培訓,我決定採用OpenAI的一種模型。我選擇了GPT-3.5 Turbo型號,該模型需要費用,但相對負擔得起。費用約為每1000個令牌或750個單詞約0.002美元。結果比使用LDA獲得的結果要好得多,儘管並不完全完美。可以考慮進一步的微調,但這將是未來努力的任務。
獲得評論後,下一步涉及存儲它們。一種選擇是利用廣泛使用的Google BigQuery。但是,經過仔細的考慮,我決定使用MongoDB地圖集。它提供了一個免費的計劃,該計劃允許最多存儲5 GB,在這種情況下,事實證明這足夠了。值得注意的是,與SQL相比,使用MongoDB需要一種略有不同的查詢方法,因為MongoDB是NOSQL數據庫。
為了以有組織的視覺吸引力介紹發現,我將MongoDB Atlas數據庫與簡化儀表板集成在一起。簡化被證明是理想的選擇,因為它提供了自定義選項並支持了包括Plotly在內的各種Python庫,該庫被用於在該項目中生成交互式圖。
在所有組件中,剩下的任務是每天自動化整個過程。每天手動重複這些步驟是不可行的。幸運的是,有幾種可用的自動化選項,其中GitHub動作就是其中之一。我配置了GitHub操作,以每天上午9點+7執行項目工作流程。
(返回到頂部)
該項目證明了主題建模用於分析應用程序評論的利用。儘管存在許多技術,但使用GPT被證明是一個可行的選擇,尤其是對於英語以外的語言。我希望這個存儲庫可以作為未來從事類似任務的人的寶貴參考。謝謝您的閱讀!
(返回到頂部)