VidioのGoogle Playストアレビューを分析するためのGitHubリポジトリへようこそ。なじみのない人のために、ヴィディオはインドネシアのストリーミングプラットフォームであり、国内最大のOTT(オーバーザトップ)サービスです。このプロジェクトの目的は、ヴィディオに関する国民の感情を掘り下げ、貴重な洞察を得ることです。私が採用した方法の1つは、Google Playストアのようなソースからのレビューを分析することでした。
このプロジェクトには、次の手順が含まれます。Google -Play-Scraperライブラリを使用してGoogle Playストアからのすべてのレビューをスクレイピングし、 GPT-3.5 Turboモデルの支援を受けて特定のトピックの下でレビューを分類するトピックモデリングを実装し、取得したレビューをデータベースに保存し、 Friremlit Dashboardを介して表示します。このプロセス全体は、 GitHubアクションを使用して自動化されます。詳細については、次のセクションで共有します。
(トップに戻る)
最初のタスクは、分析のためのデータ、特にVidioのレビューを取得することでした。幸いなことに、 Google-Play-Scraperと呼ばれるPythonライブラリがあり、あらゆるアプリのGoogle Playストアからレビューを削減するプロセスを簡素化します。当初、私はこのプロジェクトを開始するまで、利用可能なすべてのレビューを削りました。その後、スクリプトをプログラムして、毎日5000のレビューをスクレイプし、前日に収集したレビューをフィルタリングしました。
この段階は、プロジェクトの中核を構成します。単にレビューを収集するだけでも、かなりの価値は提供されません。より深い洞察を得るために、否定的および中立的なレビューに関するトピックモデリングを特に実装しました。目的は、将来の改善のために調査結果を利用することを目的として、ユーザーがVidioについて持っている一般的な苦情をよりよく理解することでした。
当初、トピックモデリングにLDA(潜在ディリクレの割り当て)を使用しようとしました。しかし、それは非常に不正確であることが証明されたため、多くの誤分類が生じました。この問題は、言語の側面に起因するように見えました。多くの言語関連のテクニックは英語で優れていますが、インドネシア語ではありません。さらに、インドネシアのスラングの存在とさまざまなタイポグラフィのバリエーションは、問題をさらに複雑にしました。
その結果、大規模なデータセットに関する広範なトレーニングを考慮して、Openaiのモデルの1つを使用することにしました。私はGPT-3.5ターボモデルを選択しましたが、これには料金がかかりますが、比較的手頃な価格です。コストは、1000トークンあたり約0.002ドル、または約750語です。結果は、完全に完全ではありませんが、LDAを使用して得られた結果よりも大幅に優れていました。さらなる微調整を考慮することができますが、それは将来の努力の課題になります。
レビューが取得されたら、次のステップにはそれらの保存が含まれていました。 1つの選択肢は、広く使用されているGoogle Bigqueryを利用することでした。しかし、慎重に検討した後、私はMongodb Atlasを使用することにしました。この場合、最大5 GBの保管を可能にする無料プランを提供します。 MongoDBはSQLと比較してわずかに異なるクエリアプローチを伴うことは、MongoDBがNOSQLデータベースであるため、MongoDBを使用することはわずかに異なるクエリアプローチを伴うことに注意する価値があります。
調査結果を組織化された視覚的に魅力的な方法で提示するために、 Mongodb Atlasデータベースを流線ライトダッシュボードと統合しました。 Streamlitは、カスタマイズオプションを提供し、このプロジェクトでインタラクティブなプロットを生成するために利用されたPlotlyを含むさまざまなPythonライブラリをサポートするため、理想的な選択であることが証明されました。
すべてのコンポーネントが配置されているため、残りのタスクは、プロセス全体を毎日自動化することでした。これらの手順を毎日手動で繰り返すことは実現可能ではありませんでした。幸いなことに、いくつかの自動化オプションがあり、 GitHubアクションもその1つです。午前9時のUTC+7に毎日プロジェクトワークフローを実行するようにGitHubアクションを構成しました。
(トップに戻る)
このプロジェクトは、アプリのレビューを分析するためのトピックモデリングの利用を示しています。多くのテクニックが存在しますが、GPTを採用することは、特に英語以外の言語では実行可能な選択であることが証明されています。このリポジトリが、将来同様のタスクを実施する人々にとって貴重なリファレンスとして役立つことを願っています。読んでくれてありがとう!
(トップに戻る)