Bem -vindo ao meu repositório do GitHub para analisar as resenhas da loja do Google Play da Vidio . Para aqueles que podem não estar familiarizados, Vidio é uma plataforma de streaming indonésia e o maior serviço OTT (exagerado) do país. O objetivo deste projeto é aprofundar o sentimento público em relação a Vidio e obter informações valiosas. Um dos métodos que empreguei foi analisar críticas de fontes como a Google Play Store.
Este projeto envolve as seguintes etapas: raspando todas as análises da Biblioteca do Google Play usando a biblioteca do Google-Play-Scraper , implementando a modelagem de tópicos para categorizar as revisões sob tópicos específicos com a assistência do GPT-3.5 Turbo Model, armazenando as revisões adquiridas em um banco de dados e apresentando-as através de um painel de streamlit . Todo esse processo é automatizado usando ações do GitHub . Mais detalhes serão compartilhados na seção a seguir.
(de volta ao topo)
A primeira tarefa foi adquirir os dados para análise, especificamente as revisões do Vidio. Felizmente, existe uma biblioteca Python chamada Google-Play-Scraper que simplifica o processo de eliminação de análises da Google Play Store para qualquer aplicativo. Inicialmente, raspei todas as análises disponíveis até o horário de iniciar este projeto. Posteriormente, programei o script para raspar 5000 revisões diariamente e filtrou as revisões coletadas no dia anterior.
Este estágio constitui o núcleo do projeto. Simplesmente coletar as revisões por si só não fornece valor substancial. Para obter informações mais profundas, implementei modelagem de tópicos especificamente em revisões negativas e neutras. O objetivo era compreender melhor as reclamações comuns que os usuários têm sobre Vidio com o objetivo de utilizar as descobertas para futuras melhorias.
Inicialmente, tentei usar o LDA (alocação latente de Dirichlet) para modelagem de tópicos. No entanto, provou ser altamente impreciso, resultando em inúmeras classificações incorretas. Esta questão parecia ser atribuída ao aspecto do idioma. Muitas técnicas relacionadas à linguagem se destacam em inglês, mas não em indonésio, o que não é tão amplamente suportado. Além disso, a presença de gírias indonésias e várias variações tipográficas complicou ainda mais o assunto.
Consequentemente, decidi empregar um dos modelos da OpenAI, dado seu extenso treinamento em grandes conjuntos de dados. Optei pelo modelo GPT-3.5 Turbo , que requer uma taxa, mas é relativamente acessível. O custo é de aproximadamente US $ 0,002 por 1000 tokens ou cerca de 750 palavras. Os resultados foram significativamente melhores do que os obtidos usando LDA, embora não sejam totalmente perfeitos. Mais ajustes finos podem ser considerados, mas isso será uma tarefa para empreendimentos futuros.
Depois que as revisões foram obtidas, o próximo passo envolveu armazená -las. Uma opção era utilizar o Google BigQuery, que é amplamente utilizado. No entanto, após uma consideração cuidadosa, decidi usar o MongoDB Atlas . Oferece um plano gratuito que permite o armazenamento de até 5 GB, o que provou ser mais do que suficiente neste caso. Vale ressaltar que o uso do MongoDB implica uma abordagem de consulta ligeiramente diferente em comparação com o SQL, pois o MongoDB é um banco de dados NoSQL.
Para apresentar as descobertas de uma maneira organizada e visualmente atraente, integrei o banco de dados do MongoDB ATLAS com um painel de streamlit . O Streamlit provou ser uma escolha ideal, pois ofereceu opções de personalização e suportou várias bibliotecas Python, incluindo plotly, que foram utilizadas para gerar gráficos interativos neste projeto.
Com todos os componentes em vigor, a tarefa restante era automatizar todo o processo diariamente. Repetir manualmente essas etapas todos os dias não era viável. Felizmente, existem várias opções de automação disponíveis, com as ações do GitHub sendo uma delas. Configurei as ações do GitHub para executar o fluxo de trabalho do projeto diariamente às 9h UTC+7.
(de volta ao topo)
Este projeto demonstra a utilização da modelagem de tópicos para analisar as revisões de aplicativos. Embora existam inúmeras técnicas, o emprego do GPT prova ser uma escolha viável, principalmente para outros idiomas que não o inglês. Espero que esse repositório sirva como uma referência valiosa para aqueles que realizam tarefas semelhantes no futuro. Obrigado pela leitura!
(de volta ao topo)