Bienvenido a mi repositorio de GitHub para analizar las reseñas de Google Play Store de Vidio . Para aquellos que pueden ser desconocidos, Vidio es una plataforma de transmisión indonesia y el servicio OTT más grande (exagerado) del país. El propósito de este proyecto es profundizar en el sentimiento público con respecto a Vidio y obtener información valiosa. Uno de los métodos que empleé fue analizar revisiones de fuentes como Google Play Store.
Este proyecto implica los siguientes pasos: raspando todas las revisiones de Google Play Store utilizando la biblioteca Google-Play-scraper , implementando el modelado de temas para clasificar las revisiones en temas específicos con la ayuda del modelo Turbo GPT-3.5 , almacenar las revisiones adquiridas en una base de datos y presentarlas a través de un tablero de rledas . Todo este proceso se automatiza utilizando acciones de GitHub . Se compartirán más detalles en la siguiente sección.
(De vuelta a la cima)
La primera tarea fue adquirir los datos para el análisis, específicamente las revisiones de Vidio. Afortunadamente, hay una biblioteca de Python llamada Google-Play-scraper que simplifica el proceso de rasparse las revisiones de Google Play Store para cualquier aplicación. Inicialmente, raspé todas las reseñas disponibles hasta el momento de iniciar este proyecto. Posteriormente, programé el script para raspar 5000 reseñas diariamente y filtré las revisiones recopiladas el día anterior.
Esta etapa constituye el núcleo del proyecto. Simplemente recopilar las revisiones por sí sola no proporciona un valor sustancial. Para obtener información más profunda, implementé el modelado de temas específicamente en revisiones negativas y neutrales. El objetivo era comprender mejor las quejas comunes que los usuarios tienen sobre Vidio con el objetivo de utilizar los hallazgos para mejoras futuras.
Inicialmente, intenté usar LDA (asignación latente de Dirichlet) para el modelado de temas. Sin embargo, resultó ser muy inexacto, lo que resultó en numerosas clasificaciones erróneas. Este problema parecía atribuirse al aspecto del lenguaje. Muchas técnicas relacionadas con el idioma se destacan en inglés, pero no en Indonesia, que no es tan ampliamente compatible. Además, la presencia de argots indonesias y varias variaciones tipográficas complican aún más el asunto.
En consecuencia, decidí emplear uno de los modelos de Openai, dada su extensa capacitación en grandes conjuntos de datos. Opté por el modelo Turbo GPT-3.5 , que requiere una tarifa, pero es relativamente asequible. El costo asciende a aproximadamente $ 0.002 por 1000 tokens o alrededor de 750 palabras. Los resultados fueron significativamente mejores que los obtenidos usando LDA, aunque no del todo perfectos. Se podría considerar más ajustes finos, pero esa será una tarea para futuros esfuerzos.
Una vez que se obtuvieron las revisiones, el siguiente paso consistió en almacenarlas. Una opción era utilizar Google BigQuery, que se usa ampliamente. Sin embargo, después de una cuidadosa consideración, decidí usar Atlas MongoDB . Ofrece un plan gratuito que permite el almacenamiento de hasta 5 GB, lo que resultó ser más que suficiente en este caso. Vale la pena señalar que el uso de MongoDB implica un enfoque de consulta ligeramente diferente en comparación con SQL, ya que MongoDB es una base de datos NoSQL.
Para presentar los hallazgos de una manera organizada y visualmente atractiva, integré la base de datos MongoDB Atlas con un tablero de transmisión . Streamlit demostró ser una opción ideal, ya que ofrecía opciones de personalización y admitía varias bibliotecas de Python, incluida Plotly, que se utilizó para generar gráficos interactivos en este proyecto.
Con todos los componentes en su lugar, la tarea restante era automatizar todo el proceso a diario. Repetir manualmente estos pasos todos los días no era factible. Afortunadamente, hay varias opciones de automatización disponibles, siendo las acciones de GitHub una de ellas. Configuré las acciones de GitHub para ejecutar el flujo de trabajo del proyecto diariamente a las 9 a.m. UTC+7.
(De vuelta a la cima)
Este proyecto demuestra la utilización del modelado de temas para analizar las revisiones de aplicaciones. Si bien existen numerosas técnicas, el empleo de GPT demuestra ser una opción viable, particularmente para idiomas distintos del inglés. Espero que este repositorio sirva como una referencia valiosa para aquellos que realizan tareas similares en el futuro. ¡Gracias por leer!
(De vuelta a la cima)