vidio_google_play_store_reviews скачать - vidio_google_play_store

vidio_google_play_store_reviews

AI Исходный код

1.0.0

Скачать

Анализ обзоров Vidio Google Play Store

? Введение

Добро пожаловать в мой репозиторий GitHub для анализа обзоров Google Play Store Vidio . Для тех, кто может быть незнакомым, Vidio является индонезийской потоковой платформой и крупнейшей службой OTT (чрезмерной) в стране. Цель этого проекта состоит в том, чтобы углубиться в общественные настроения относительно Vidio и получить ценную информацию. Одним из методов, которые я использовал, был анализ обзоров из таких источников, как Google Play Store.

Этот проект включает в себя следующие шаги: скрещивание всех обзоров из магазина Google Play с использованием библиотеки Google-Play-Scraper , внедряя моделирование тем, чтобы классифицировать обзоры под конкретные темы с помощью модели GPT-3.5 Turbo , сохранив приобретенные обзоры в базе данных и предоставляя их через панель Demlit . Весь этот процесс автоматизирован с использованием действий GitHub . Более подробная информация будет передана в следующем разделе.

(Вернуться к вершине)

? ‍♂️ Прохождение

? Соскабливание обзоров из магазина Google Play

Первая задача состояла в том, чтобы получить данные для анализа, в частности, обзоры Vidio. К счастью, существует библиотека Python под названием Google-Play-Scraper , которая упрощает процесс очистки обзоров из Google Play Store для любого приложения. Первоначально я скрещивал все доступные обзоры до времени инициирования этого проекта. Впоследствии я запрограммировал сценарий на сценарий 5000 обзоров ежедневно и отфильтровал отзывы, собранные в предыдущий день.

Реализация тематических моделирования в обзорах

Этот этап представляет собой ядро проекта. Простое сбор отзывов только не обеспечивает существенной ценности. Чтобы получить более глубокое понимание, я внедрил моделирование темы специально для негативных и нейтральных обзоров. Цель состояла в том, чтобы лучше понять общие жалобы, которые пользователи имеют на Vidio с целью использования результатов для будущих улучшений.

Первоначально я пытался использовать LDA (скрытое распределение Dirichlet) для моделирования тем. Тем не менее, это оказалось очень неточным, что привело к многочисленным ошибочным классификациям. Эта проблема, по -видимому, объясняется языковым аспектом. Многие связанные с языком методы преуспевают на английском языке, но не на индонезийском языке, что не так широко поддерживается. Более того, наличие индонезийских сленге и различных типографских вариаций еще больше усложнило вопрос.

Следовательно, я решил использовать одну из моделей Openai, учитывая их обширное обучение по большим наборам данных. Я выбрал модель Turbo GPT-3.5 , которая требует платы, но является относительно доступной. Стоимость составляет приблизительно 0,002 долл. США на 1000 токенов или около 750 слов. Результаты были значительно лучше, чем результаты, полученные с использованием LDA, хотя и не совсем идеальные. Дальнейшая точная настройка может быть рассмотрена, но это будет задачей для будущих усилий.

? Строгие отзывы в базе данных

Как только отзывы были получены, следующим шагом было их хранение. Одним из вариантов было использовать Google BigQuery, который широко используется. Однако после тщательного рассмотрения я решил использовать Mongodb Atlas . Он предлагает бесплатный план, который позволяет хранить до 5 ГБ, что оказалось более чем достаточным в этом случае. Стоит отметить, что использование MongoDB влечет за собой немного другой подход запросов по сравнению с SQL, поскольку MongoDB является базой данных NOSQL.

? Создание инструментальной панели

Чтобы представить результаты организованными и визуально привлекательными способами, я интегрировал базу данных MongoDB Atlas с инструментальной панелью. Streamlit оказался идеальным выбором, так как он предлагал параметры настройки и поддерживал различные библиотеки Python, в том числе Plotly, которые использовались для создания интерактивных участков в этом проекте.

Автоматизация всего процесса

При наличии всех компонентов оставшейся задачей было автоматизировать весь процесс ежедневно. Вручную повторять эти шаги каждый день невозможно. К счастью, есть несколько вариантов автоматизации, причем один из них является одним из них. Я настроил действия GitHub для выполнения рабочего процесса проекта ежедневно в 9 утра UTC+7.

(Вернуться к вершине)

Заключение

Этот проект демонстрирует использование тематического моделирования для анализа обзоров приложений. Хотя существуют многочисленные методы, использование GPT оказывается жизнеспособным выбором, особенно для языков, отличных от английского. Я надеюсь, что этот репозиторий служит ценной ссылкой для тех, кто выполняет аналогичные задачи в будущем. Спасибо за чтение!

(Вернуться к вершине)

Расширять

Дополнительная информация