Willkommen in meinem Github -Repository für die Analyse von Vidio's Google Play Store -Bewertungen . Für diejenigen, die möglicherweise unbekannt sind, ist Vidio eine indonesische Streaming-Plattform und der größte OTT-Dienst (Over-the-the-the-Top) des Landes. Der Zweck dieses Projekts ist es, sich mit der öffentlichen Stimmung in Bezug auf VIDIO zu befassen und wertvolle Erkenntnisse zu gewinnen. Eine der Methoden, die ich verwendet habe, war die Analyse von Bewertungen aus Quellen wie dem Google Play Store.
Dieses Projekt umfasst die folgenden Schritte: alle Bewertungen aus dem Google Play Store mithilfe der Google-Play-Scraper- Bibliothek, implementieren Sie Themenmodellierung, um die Überprüfungen unter bestimmten Themen mit Unterstützung des GPT-3.5-Turbo- Modells zu kategorisieren, die erworbenen Bewertungen in einer Datenbank zu speichern und sie über ein Strom- Dashboard zu präsentieren. Dieser gesamte Prozess wird mithilfe von GitHub -Aktionen automatisiert. Weitere Einzelheiten werden im folgenden Abschnitt weitergegeben.
(zurück nach oben)
Die erste Aufgabe bestand darin, die Daten für die Analyse zu erwerben, insbesondere die Überprüfungen von VIDIO. Glücklicherweise gibt es eine Python-Bibliothek namens Google-Play-SCRAPER , die den Prozess des Abkratzens von Bewertungen aus dem Google Play Store für jede App vereinfacht. Zunächst habe ich alle verfügbaren Bewertungen bis zum Zeitpunkt der Einleitung dieses Projekts abgekratzt. Anschließend habe ich das Skript so programmiert, dass sie täglich 5000 Bewertungen kratzen und die am Vortag gesammelten Bewertungen herausgefiltert haben.
Diese Phase bildet den Kern des Projekts. Das einfache Sammeln der Bewertungen bietet keinen wesentlichen Wert. Um tiefere Erkenntnisse zu gewinnen, habe ich die Themenmodellierung speziell für negative und neutrale Bewertungen implementiert. Ziel war es, die gemeinsamen Beschwerden besser zu verstehen, die Benutzer über VIDIO haben, um die Ergebnisse für zukünftige Verbesserungen zu nutzen.
Zunächst habe ich versucht, LDA (Latent Dirichlet Allocation) für die Themenmodellierung zu verwenden. Es erwies sich jedoch als sehr ungenau, was zu zahlreichen Fehlklassifizierungen führte. Dieses Problem schien dem Sprachaspekt zugeschrieben zu werden. Viele sprachbezogene Techniken sind in englischer Sprache, aber nicht auf Indonesisch, was nicht so weitgehend unterstützt wird. Darüber hinaus komplizierte das Vorhandensein indonesischer Slangs und verschiedene typografische Variationen die Angelegenheit.
Infolgedessen habe ich beschlossen, eines der Modelle von OpenAI angesichts ihrer umfassenden Schulung in großen Datensätzen zu beschäftigen. Ich habe mich für das GPT-3,5-Turbo- Modell entschieden, das eine Gebühr erfordert, aber relativ erschwinglich ist. Die Kosten belaufen sich auf ca. 0,002 USD pro 1000 -Token oder rund 750 Wörter. Die Ergebnisse waren signifikant besser als diejenigen, die mit LDA erhalten wurden, wenn auch nicht ganz perfekt. Eine weitere Feinabstimmung könnte berücksichtigt werden, aber das wird eine Aufgabe für zukünftige Bemühungen sein.
Nachdem die Bewertungen erhalten wurden, bestand der nächste Schritt darin, sie zu speichern. Eine Option bestand darin, Google BigQuery zu verwenden, das weit verbreitet ist. Nach sorgfältiger Überlegung entschied ich mich jedoch für die Verwendung von MongoDB -Atlas . Es bietet einen kostenlosen Plan, der eine Lagerung von bis zu 5 GB ermöglicht, was sich in diesem Fall als mehr als ausreichend erwies. Es ist erwähnenswert, dass die Verwendung von MongoDB im Vergleich zu SQL einen etwas anderen Abfrageansatz beinhaltet, da MongoDB eine NoSQL -Datenbank ist.
Um die Ergebnisse organisiert und visuell ansprechend zu präsentieren, habe ich die MongoDB -Atlas -Datenbank mit einem optimistischen Dashboard integriert. Streamlit erwies sich als ideale Wahl, da es Anpassungsoptionen bot und verschiedene Python -Bibliotheken unterstützte, einschließlich Plotly, die verwendet wurden, um interaktive Diagramme in diesem Projekt zu generieren.
Bei allen Bestandteilen bestand die verbleibende Aufgabe darin, den gesamten Prozess täglich zu automatisieren. Es war nicht machbar, diese Schritte jeden Tag manuell zu wiederholen. Glücklicherweise stehen mehrere Automatisierungsoptionen zur Verfügung, wobei GitHub -Aktionen einer davon sind. Ich habe GitHub -Aktionen konfiguriert, um den Projekt Workflow täglich um 9 Uhr UTC+7 auszuführen.
(zurück nach oben)
Dieses Projekt zeigt die Nutzung der Themenmodellierung zur Analyse von App -Bewertungen. Während zahlreiche Techniken existieren, erweist sich die Verwendung von GPT als praktikable Wahl, insbesondere für andere Sprachen als Englisch. Ich hoffe, dass dieses Repository eine wertvolle Referenz für diejenigen, die in Zukunft ähnliche Aufgaben übernehmen. Danke fürs Lesen!
(zurück nach oben)