Добро пожаловать в мой репозиторий GitHub для анализа обзоров Google Play Store Vidio . Для тех, кто может быть незнакомым, Vidio является индонезийской потоковой платформой и крупнейшей службой OTT (чрезмерной) в стране. Цель этого проекта состоит в том, чтобы углубиться в общественные настроения относительно Vidio и получить ценную информацию. Одним из методов, которые я использовал, был анализ обзоров из таких источников, как Google Play Store.
Этот проект включает в себя следующие шаги: скрещивание всех обзоров из магазина Google Play с использованием библиотеки Google-Play-Scraper , внедряя моделирование тем, чтобы классифицировать обзоры под конкретные темы с помощью модели GPT-3.5 Turbo , сохранив приобретенные обзоры в базе данных и предоставляя их через панель Demlit . Весь этот процесс автоматизирован с использованием действий GitHub . Более подробная информация будет передана в следующем разделе.
(Вернуться к вершине)
Первая задача состояла в том, чтобы получить данные для анализа, в частности, обзоры Vidio. К счастью, существует библиотека Python под названием Google-Play-Scraper , которая упрощает процесс очистки обзоров из Google Play Store для любого приложения. Первоначально я скрещивал все доступные обзоры до времени инициирования этого проекта. Впоследствии я запрограммировал сценарий на сценарий 5000 обзоров ежедневно и отфильтровал отзывы, собранные в предыдущий день.
Этот этап представляет собой ядро проекта. Простое сбор отзывов только не обеспечивает существенной ценности. Чтобы получить более глубокое понимание, я внедрил моделирование темы специально для негативных и нейтральных обзоров. Цель состояла в том, чтобы лучше понять общие жалобы, которые пользователи имеют на Vidio с целью использования результатов для будущих улучшений.
Первоначально я пытался использовать LDA (скрытое распределение Dirichlet) для моделирования тем. Тем не менее, это оказалось очень неточным, что привело к многочисленным ошибочным классификациям. Эта проблема, по -видимому, объясняется языковым аспектом. Многие связанные с языком методы преуспевают на английском языке, но не на индонезийском языке, что не так широко поддерживается. Более того, наличие индонезийских сленге и различных типографских вариаций еще больше усложнило вопрос.
Следовательно, я решил использовать одну из моделей Openai, учитывая их обширное обучение по большим наборам данных. Я выбрал модель Turbo GPT-3.5 , которая требует платы, но является относительно доступной. Стоимость составляет приблизительно 0,002 долл. США на 1000 токенов или около 750 слов. Результаты были значительно лучше, чем результаты, полученные с использованием LDA, хотя и не совсем идеальные. Дальнейшая точная настройка может быть рассмотрена, но это будет задачей для будущих усилий.
Как только отзывы были получены, следующим шагом было их хранение. Одним из вариантов было использовать Google BigQuery, который широко используется. Однако после тщательного рассмотрения я решил использовать Mongodb Atlas . Он предлагает бесплатный план, который позволяет хранить до 5 ГБ, что оказалось более чем достаточным в этом случае. Стоит отметить, что использование MongoDB влечет за собой немного другой подход запросов по сравнению с SQL, поскольку MongoDB является базой данных NOSQL.
Чтобы представить результаты организованными и визуально привлекательными способами, я интегрировал базу данных MongoDB Atlas с инструментальной панелью. Streamlit оказался идеальным выбором, так как он предлагал параметры настройки и поддерживал различные библиотеки Python, в том числе Plotly, которые использовались для создания интерактивных участков в этом проекте.
При наличии всех компонентов оставшейся задачей было автоматизировать весь процесс ежедневно. Вручную повторять эти шаги каждый день невозможно. К счастью, есть несколько вариантов автоматизации, причем один из них является одним из них. Я настроил действия GitHub для выполнения рабочего процесса проекта ежедневно в 9 утра UTC+7.
(Вернуться к вершине)
Этот проект демонстрирует использование тематического моделирования для анализа обзоров приложений. Хотя существуют многочисленные методы, использование GPT оказывается жизнеспособным выбором, особенно для языков, отличных от английского. Я надеюсь, что этот репозиторий служит ценной ссылкой для тех, кто выполняет аналогичные задачи в будущем. Спасибо за чтение!
(Вернуться к вершине)