Vidio의 Google Play 스토어 리뷰 분석을 위해 Github 저장소에 오신 것을 환영합니다. 익숙하지 않은 사람들에게 Vidio는 인도네시아 스트리밍 플랫폼이며 미국에서 가장 큰 OTT (Over-Top) 서비스입니다. 이 프로젝트의 목적은 Vidio에 관한 공개 정서를 탐구하고 귀중한 통찰력을 얻는 것입니다. 내가 사용한 방법 중 하나는 Google Play 스토어와 같은 소스의 리뷰를 분석하는 것입니다.
이 프로젝트에는 다음 단계가 포함됩니다. Google-Play-Scraper Library를 사용하여 Google Play 스토어의 모든 리뷰를 긁어 내고 GPT-3.5 Turbo 모델의 도움으로 특정 주제로 리뷰를 분류하고 데이터베이스에 획득 한 리뷰를 저장 한 후 간단히 대체 보드를 통해 제시합니다. 이 전체 프로세스는 GitHub 작업을 사용하여 자동화됩니다. 자세한 내용은 다음 섹션에서 공유됩니다.
(뒤로 맨 위로)
첫 번째 작업은 분석을위한 데이터, 특히 Vidio의 검토를 얻는 것이 었습니다. 다행스럽게도 Google-Play-Scraper 라는 Python 라이브러리가있어 모든 앱에 대한 Google Play 스토어에서 리뷰를 긁는 프로세스를 단순화합니다. 처음에는이 프로젝트를 시작할 때까지 사용 가능한 모든 리뷰를 긁어 냈습니다. 그 후, 나는 매일 5000 개의 리뷰를 긁어 내기 위해 스크립트를 프로그래밍하고 전날 수집 된 리뷰를 필터링했습니다.
이 단계는 프로젝트의 핵심을 구성합니다. 단순히 리뷰 만 수집한다고해서 상당한 가치를 제공하지는 않습니다. 더 깊은 통찰력을 얻기 위해 부정적인 중립적 리뷰에 대한 주제 모델링을 구현했습니다. 목표는 향후 개선을 위해 결과를 활용하기 위해 사용자가 Vidio에 대한 일반적인 불만을 더 잘 이해하는 것이 었습니다.
처음에는 주제 모델링에 LDA (잠재적 인 Dirichlet 할당)를 사용하려고 시도했습니다. 그러나, 그것은 매우 부정확 한 것으로 판명되어 수많은 오 분류가 발생했습니다. 이 문제는 언어 측면에 기인 한 것으로 보입니다. 많은 언어 관련 기술은 영어로 탁월하지만 널리 지원되지는 않습니다. 더욱이, 인도네시아 속어와 다양한 인쇄상의 변형의 존재는 그 문제를 더욱 복잡하게 만들었다.
결과적으로, 나는 대형 데이터 세트에 대한 광범위한 교육을 감안할 때 OpenAI의 모델 중 하나를 사용하기로 결정했습니다. 나는 GPT-3.5 터보 모델을 선택했는데, 이는 수수료가 필요하지만 상대적으로 저렴합니다. 비용은 1000 토큰 당 약 $ 0.002 또는 약 750 단어입니다. 결과는 LDA를 사용하여 얻은 결과보다 훨씬 더 우수했지만 완전히 완벽하지는 않았습니다. 더 미세 조정이 고려 될 수 있지만, 그것은 미래의 노력을위한 과제가 될 것입니다.
리뷰가 얻어지면 다음 단계는 저장과 관련이있었습니다. 한 가지 옵션은 널리 사용되는 Google BigQuery를 사용하는 것이 었습니다. 그러나 신중하게 고려한 후 MongoDB Atlas를 사용하기로 결정했습니다. 이 경우 최대 5GB를 저장할 수있는 무료 계획을 제공하며,이 경우 충분한 것으로 판명되었습니다. MongoDB를 사용하려면 MongoDB가 NOSQL 데이터베이스이기 때문에 SQL과 비교하여 약간 다른 쿼리 접근 방식을 수반한다는 점은 주목할 가치가 있습니다.
결과를 조직적이고 시각적으로 매력적인 방식으로 제시하기 위해 MongoDB Atlas 데이터베이스를 간소화 대시 보드와 통합했습니다. Streamlit은 사용자 정의 옵션을 제공 하고이 프로젝트에서 대화식 플롯을 생성하는 데 사용 된 Plotly를 포함한 다양한 Python 라이브러리를 지원했기 때문에 이상적인 선택으로 판명되었습니다.
모든 구성 요소가 제자리에 있으면 나머지 작업은 매일 전체 프로세스를 자동화하는 것이 었습니다. 매일 이러한 단계를 수동으로 반복하는 것은 불가능했습니다. 다행히도 GitHub 동작이 그 중 하나 인 몇 가지 자동화 옵션이 있습니다. UTC+7시에 매일 프로젝트 워크 플로우를 실행하도록 GitHub 조치를 구성했습니다.
(뒤로 맨 위로)
이 프로젝트는 앱 리뷰를 분석하기위한 주제 모델링의 활용을 보여줍니다. 수많은 기술이 존재하지만 GPT를 사용하는 것은 특히 영어 이외의 언어에서 실행 가능한 선택입니다. 이 저장소가 미래에 유사한 작업을 수행하는 사람들에게 귀중한 참조 역할을하기를 바랍니다. 읽어 주셔서 감사합니다!
(뒤로 맨 위로)