ยินดีต้อนรับสู่ที่เก็บ GitHub ของฉันสำหรับ การวิเคราะห์บทวิจารณ์ของ Google Play Store ของ Vidio สำหรับผู้ที่อาจไม่คุ้นเคย Vidio เป็นแพลตฟอร์มสตรีมมิ่งอินโดนีเซียและบริการ OTT ที่ใหญ่ที่สุด (over-the-top) ในประเทศ วัตถุประสงค์ของโครงการนี้คือการเจาะลึกความเชื่อมั่นของสาธารณชนเกี่ยวกับ Vidio และได้รับข้อมูลเชิงลึกที่มีค่า หนึ่งในวิธีการที่ฉันใช้คือการวิเคราะห์ความคิดเห็นจากแหล่งข้อมูลเช่น Google Play Store
โครงการนี้เกี่ยวข้องกับขั้นตอนต่อไปนี้: การขูดรีวิวทั้งหมดจาก Google Play Store โดยใช้ไลบรารี Google-Play-Scraper , การใช้แบบจำลองหัวข้อเพื่อจัดหมวดหมู่บทวิจารณ์ภายใต้หัวข้อเฉพาะด้วยความช่วยเหลือของรุ่น Turbo GPT-3.5 กระบวนการทั้งหมดนี้เป็นไปโดยอัตโนมัติโดยใช้ การกระทำของ GitHub รายละเอียดเพิ่มเติมจะถูกแบ่งปันในส่วนต่อไปนี้
(กลับไปด้านบน)
ภารกิจแรกคือการรับข้อมูลสำหรับการวิเคราะห์โดยเฉพาะบทวิจารณ์ของ Vidio โชคดีที่มีไลบรารี Python ที่เรียกว่า Google-Play-Scraper ที่ทำให้กระบวนการขูดรีวิวจาก Google Play Store สำหรับแอพใด ๆ ง่ายขึ้น ในขั้นต้นฉันคัดลอกรีวิวที่มีอยู่ทั้งหมดจนถึงเวลาเริ่มโครงการนี้ ต่อจากนั้นฉันได้ตั้งโปรแกรมสคริปต์เพื่อตรวจสอบความคิดเห็น 5,000 ครั้งทุกวันและกรองบทวิจารณ์ที่รวบรวมในวันก่อนหน้า
ขั้นตอนนี้ถือเป็นแกนหลักของโครงการ เพียงแค่รวบรวมบทวิจารณ์เพียงอย่างเดียวไม่ได้ให้คุณค่ามากมาย เพื่อให้ได้ข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นฉันได้ใช้การสร้างแบบจำลองหัวข้อโดยเฉพาะเกี่ยวกับความคิดเห็นเชิงลบและเป็นกลาง วัตถุประสงค์คือเพื่อทำความเข้าใจข้อร้องเรียนทั่วไปที่ผู้ใช้มีเกี่ยวกับ Vidio โดยมีจุดประสงค์เพื่อใช้ประโยชน์จากการค้นพบสำหรับการปรับปรุงในอนาคต
เริ่มแรกฉันพยายามใช้ LDA (การจัดสรร Dirichlet แฝง) สำหรับการสร้างแบบจำลองหัวข้อ อย่างไรก็ตามมันพิสูจน์แล้วว่าไม่ถูกต้องสูงส่งผลให้เกิดการจำแนกประเภทมากมาย ปัญหานี้ดูเหมือนจะเกิดจากด้านภาษา เทคนิคที่เกี่ยวข้องกับภาษาหลายภาษาเก่งในภาษาอังกฤษ แต่ไม่ใช่ในอินโดนีเซียซึ่งไม่ได้รับการสนับสนุนอย่างกว้างขวาง ยิ่งไปกว่านั้นการปรากฏตัวของคำสแลงของชาวอินโดนีเซียและรูปแบบการพิมพ์ที่หลากหลายทำให้เรื่องซับซ้อนยิ่งขึ้น
ดังนั้นฉันตัดสินใจที่จะจ้างหนึ่งในโมเดลของ Openai เนื่องจากการฝึกอบรมอย่างกว้างขวางในชุดข้อมูลขนาดใหญ่ ฉันเลือกรุ่น GPT-3.5 Turbo ซึ่งต้องใช้ค่าธรรมเนียม แต่ค่อนข้างราคาไม่แพง ค่าใช้จ่ายมีจำนวนประมาณ $ 0.002 ต่อ 1,000 โทเค็นหรือประมาณ 750 คำ ผลลัพธ์ดีกว่าที่ได้รับอย่างมากโดยใช้ LDA แม้ว่าจะไม่สมบูรณ์แบบทั้งหมด การปรับจูนเพิ่มเติมอาจได้รับการพิจารณา แต่นั่นจะเป็นงานสำหรับความพยายามในอนาคต
เมื่อความคิดเห็นได้รับขั้นตอนต่อไปที่เกี่ยวข้องกับการจัดเก็บ ตัวเลือกหนึ่งคือการใช้ Google BigQuery ซึ่งใช้กันอย่างแพร่หลาย อย่างไรก็ตามหลังจากพิจารณาอย่างรอบคอบฉันตัดสินใจใช้ MongoDB Atlas มันมีแผนฟรีที่อนุญาตให้จัดเก็บได้สูงสุด 5 GB ซึ่งพิสูจน์แล้วว่าเพียงพอในกรณีนี้ เป็นที่น่าสังเกตว่าการใช้ MongoDB นั้นมีวิธีการค้นหาที่แตกต่างกันเล็กน้อยเมื่อเทียบกับ SQL เนื่องจาก MongoDB เป็นฐานข้อมูล NOSQL
เพื่อนำเสนอผลการวิจัยในลักษณะที่จัดระเบียบและดึงดูดสายตาฉันได้รวมฐานข้อมูล MongoDB Atlas เข้ากับแผงควบคุม แบบสตรีม Streamlit ได้รับการพิสูจน์แล้วว่าเป็นตัวเลือกในอุดมคติเนื่องจากมีตัวเลือกการปรับแต่งและสนับสนุนไลบรารี Python ต่างๆรวมถึงการวางแผนซึ่งใช้เพื่อสร้างพล็อตแบบโต้ตอบในโครงการนี้
ด้วยส่วนประกอบทั้งหมดในสถานที่งานที่เหลือคือการทำให้กระบวนการทั้งหมดเป็นไปโดยอัตโนมัติทุกวัน ทำซ้ำขั้นตอนเหล่านี้ด้วยตนเองทุกวันไม่สามารถทำได้ โชคดีที่มีตัวเลือกอัตโนมัติหลายตัวเลือกโดยมี การกระทำของ GitHub เป็นหนึ่งในนั้น ฉันกำหนดค่า การกระทำของ GitHub เพื่อดำเนินการเวิร์กโฟลว์โครงการทุกวันเวลา 9.00 น. UTC+7
(กลับไปด้านบน)
โครงการนี้แสดงให้เห็นถึงการใช้แบบจำลองหัวข้อเพื่อวิเคราะห์บทวิจารณ์แอพ ในขณะที่มีเทคนิคมากมาย แต่การใช้ GPT พิสูจน์ให้เห็นว่าเป็นตัวเลือกที่ใช้งานได้โดยเฉพาะอย่างยิ่งสำหรับภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ฉันหวังว่าที่เก็บนี้ทำหน้าที่เป็นข้อมูลอ้างอิงที่มีค่าสำหรับผู้ที่ทำงานที่คล้ายกันในอนาคต ขอบคุณสำหรับการอ่าน!
(กลับไปด้านบน)