Bienvenue dans mon référentiel GitHub pour analyser les avis Google Play Store de Vidio . Pour ceux qui peuvent être inconnus, Vidio est une plate-forme de streaming indonésienne et le plus grand service OTT (Over-the-top) du pays. Le but de ce projet est de se plonger dans le sentiment public concernant Vidio et d'obtenir des informations précieuses. L'une des méthodes que j'ai utilisées a été d'analyser les avis de sources comme le Google Play Store.
Ce projet implique les étapes suivantes: Arrondir toutes les avis du Google Play Store à l'aide de la bibliothèque Google-Play-Scraper , implémenter la modélisation de sujets pour catégoriser les avis dans des sujets spécifiques avec l'aide du modèle turbo GPT-3.5 , stockant les critiques acquises dans une base de données et les présentant via un tableau de bord rationalisé . Ce processus entier est automatisé à l'aide d'actions GitHub . Plus de détails seront partagés dans la section suivante.
(retour en haut)
La première tâche a été d'acquérir les données pour l'analyse, en particulier les revues de Vidio. Heureusement, il existe une bibliothèque Python appelée Google-Play-Scraper qui simplifie le processus de gratte des avis de Google Play Store pour n'importe quelle application. Initialement, j'ai gratté toutes les critiques disponibles jusqu'au moment de l'initiation de ce projet. Par la suite, j'ai programmé le script pour gratter 5000 avis quotidiennement et filtré les critiques collectées la veille.
Cette étape constitue le cœur du projet. Le simple fait de collecter les examens à lui seul ne fournit pas de valeur substantielle. Pour obtenir des informations plus approfondies, j'ai implémenté la modélisation des sujets spécifiquement sur des critiques négatives et neutres. L'objectif était de mieux comprendre les plaintes communes que les utilisateurs ont à propos de Vidio dans le but d'utiliser les résultats des améliorations futures.
Initialement, j'ai tenté d'utiliser LDA (allocation latente Dirichlet) pour la modélisation de sujets. Cependant, cela s'est avéré très inexact, ce qui a entraîné de nombreuses classifications erronées. Ce problème semble être attribué à l'aspect linguistique. De nombreuses techniques liées à la langue excellent en anglais, mais pas en Indonésien, qui n'est pas aussi largement soutenue. De plus, la présence d'argot indonésiens et de diverses variations typographiques a encore compliqué la question.
Par conséquent, j'ai décidé d'employer l'un des modèles d'Openai, compte tenu de leur formation approfondie sur les grands ensembles de données. J'ai opté pour le modèle turbo GPT-3.5 , qui nécessite des frais, mais est relativement abordable. Le coût s'élève à environ 0,002 $ par 1000 jetons ou environ 750 mots. Les résultats étaient significativement meilleurs que ceux obtenus en utilisant LDA, mais pas entièrement parfaits. Un réglage fin pourrait être pris en considération, mais ce sera une tâche pour les efforts futurs.
Une fois les examens obtenus, l'étape suivante consistait à les stocker. Une option était d'utiliser Google BigQuery, qui est largement utilisée. Cependant, après un examen attentif, j'ai décidé d'utiliser MongoDB Atlas . Il offre un plan gratuit qui permet de stocker jusqu'à 5 Go, ce qui s'est avéré plus que suffisant dans ce cas. Il convient de noter que l'utilisation de MongoDB implique une approche de requête légèrement différente par rapport à SQL, car MongoDB est une base de données NoSQL.
Pour présenter les résultats d'une manière organisée et visuellement attrayante, j'ai intégré la base de données MongoDB Atlas avec un tableau de bord rationalisé . Sationlit s'est avéré être un choix idéal, car il offrait des options de personnalisation et pris en charge diverses bibliothèques Python, y compris Plotly, qui a été utilisée pour générer des parcelles interactives dans ce projet.
Avec tous les composants en place, la tâche restante était d'automatiser tous les processus quotidiennement. Répéter manuellement ces étapes chaque jour n'était pas possible. Heureusement, plusieurs options d'automatisation sont disponibles, les actions GitHub étant l'une d'entre elles. J'ai configuré des actions GitHub pour exécuter quotidiennement le flux de travail du projet à 9 h UTC + 7.
(retour en haut)
Ce projet démontre l'utilisation de la modélisation des sujets pour analyser les revues d'applications. Bien qu'il existe de nombreuses techniques, l'emploi de GPT s'avère être un choix viable, en particulier pour les langues autres que l'anglais. J'espère que ce référentiel sert de référence précieuse pour ceux qui entreprennent des tâches similaires à l'avenir. Merci d'avoir lu!
(retour en haut)