欢迎来到我的GitHub存储库,以分析Vidio的Google Play商店评论。对于那些可能不熟悉的人来说,Vidio是印尼流媒体平台,也是该国最大的OTT(顶级)服务。该项目的目的是深入探究有关Vidio的公众情绪并获得宝贵的见解。我采用的一种方法是分析来自Google Play商店等来源的评论。
该项目涉及以下步骤:使用Google-play-Scraper库从Google Play商店中刮除所有评论,实施主题建模,以在GPT-3.5 Turbo模型的帮助下对特定主题的评论进行分类,并将所获得的评论存储在数据库中,并通过简化的仪表板将其呈现。使用GitHub操作将整个过程自动化。更多详细信息将在下一节中共享。
(返回到顶部)
第一个任务是获取数据进行分析,特别是对Vidio的评论。幸运的是,有一个名为Google-play-Scraper的Python库,它简化了从Google Play商店刮擦评论的过程。最初,我在启动该项目之前刮过了所有可用的评论。随后,我将脚本编程为每天刮擦5000条评论,并过滤了前一天收集的评论。
这个阶段构成了项目的核心。仅仅收集评论并不能提供实质性的价值。为了获得更深入的见解,我专门针对负面和中立的评论实施了主题建模。目的是更好地理解用户对VIDIO的普遍投诉,目的是利用这些发现进行将来的改进。
最初,我试图使用LDA(潜在的Dirichlet分配)进行主题建模。但是,事实证明它是高度不准确的,导致了许多错误分类。这个问题似乎归因于语言方面。许多与语言相关的技术在英语中表现出色,但在印尼语中却不是广泛支持。此外,印尼语和各种印刷变化的存在进一步使问题变得复杂。
因此,鉴于他们在大型数据集上进行了广泛的培训,我决定采用OpenAI的一种模型。我选择了GPT-3.5 Turbo型号,该模型需要费用,但相对负担得起。费用约为每1000个令牌或750个单词约0.002美元。结果比使用LDA获得的结果要好得多,尽管并不完全完美。可以考虑进一步的微调,但这将是未来努力的任务。
获得评论后,下一步涉及存储它们。一种选择是利用广泛使用的Google BigQuery。但是,经过仔细的考虑,我决定使用MongoDB地图集。它提供了一个免费的计划,该计划允许最多存储5 GB,在这种情况下,事实证明这足够了。值得注意的是,与SQL相比,使用MongoDB需要一种略有不同的查询方法,因为MongoDB是NOSQL数据库。
为了以有组织的视觉吸引力介绍发现,我将MongoDB Atlas数据库与简化仪表板集成在一起。简化被证明是理想的选择,因为它提供了自定义选项并支持了包括Plotly在内的各种Python库,该库被用于在该项目中生成交互式图。
在所有组件中,剩下的任务是每天自动化整个过程。每天手动重复这些步骤是不可行的。幸运的是,有几种可用的自动化选项,其中GitHub动作就是其中之一。我配置了GitHub操作,以每天上午9点+7执行项目工作流程。
(返回到顶部)
该项目证明了主题建模用于分析应用程序评论的利用。尽管存在许多技术,但使用GPT被证明是一个可行的选择,尤其是对于英语以外的语言。我希望这个存储库可以作为未来从事类似任务的人的宝贵参考。谢谢您的阅读!
(返回到顶部)