مرحبًا بك في مستودع GitHub لتحليل مراجعات متجر Google Play في Vidio . بالنسبة لأولئك الذين قد يكونون غير مألوفين ، تعد Vidio منصة للبث الإندونيسي وخدمة OTT (فوق القمة) في البلاد. الغرض من هذا المشروع هو الخوض في المشاعر العامة فيما يتعلق فيديو واكتساب رؤى قيمة. كانت إحدى الطرق التي استخدمتها تحليل مراجعات من مصادر مثل متجر Google Play.
يتضمن هذا المشروع الخطوات التالية: كشط جميع المراجعات من متجر Google Play باستخدام مكتبة Google-Play-Scraper ، وتنفيذ نمذجة الموضوع لتصنيف المراجعات ضمن مواضيع محددة بمساعدة نموذج GPT-3.5 Turbo ، وتخزين المراجعات المكتسبة في قاعدة بيانات ، وتقديمها من خلال لوحة القيادة البسيطة . هذه العملية بأكملها آلية باستخدام إجراءات github . سيتم مشاركة المزيد من التفاصيل في القسم التالي.
(العودة إلى الأعلى)
كانت المهمة الأولى هي الحصول على بيانات التحليل ، وتحديداً مراجعات Vidio. لحسن الحظ ، هناك مكتبة Python تسمى Google-Play-Scraper والتي تبسط عملية تجريد المراجعات من متجر Google Play لأي تطبيق. في البداية ، قمت بتخليص جميع المراجعات المتاحة حتى وقت بدء هذا المشروع. بعد ذلك ، قمت ببرمجة البرنامج النصي لتكشفي 5000 مراجعات يوميًا وتصفية المراجعات التي تم جمعها في اليوم السابق.
هذه المرحلة تشكل جوهر المشروع. ببساطة جمع المراجعات وحدها لا يوفر قيمة كبيرة. لاكتساب رؤى أعمق ، قمت بتطبيق نمذجة الموضوع على وجه التحديد على المراجعات السلبية والمحايدة. كان الهدف هو فهم الشكاوى الشائعة التي لدى المستخدمين حول Vidio بشكل أفضل بهدف استخدام نتائج التحسينات المستقبلية.
في البداية ، حاولت استخدام LDA (تخصيص dirichlet الكامن) لنمذجة الموضوع. ومع ذلك ، فقد أثبت أنه غير دقيق للغاية ، مما يؤدي إلى العديد من التصنيفات الخاطئة. يبدو أن هذه المشكلة تعزى إلى جانب اللغة. تتفوق العديد من التقنيات المتعلقة باللغة باللغة الإنجليزية ، ولكن ليس باللغة الإندونيسية ، والتي لا يتم دعمها على نطاق واسع. علاوة على ذلك ، فإن وجود العامية الإندونيسية والتغيرات المطبعية المختلفة قد زاد من تعقيد الأمر.
وبالتالي ، قررت توظيف أحد طرز Openai ، بالنظر إلى تدريبهم المكثف على مجموعات البيانات الكبيرة. لقد اخترت نموذج GPT-3.5 Turbo ، والذي يتطلب رسومًا ، ولكنه بأسعار معقولة نسبيًا. تبلغ تكلفة التكلفة حوالي 0.002 دولار لكل 1000 رمز أو حوالي 750 كلمة. كانت النتائج أفضل بكثير من تلك التي تم الحصول عليها باستخدام LDA ، وإن لم تكن مثالية تمامًا. يمكن النظر في مزيد من الضبط ، ولكن ستكون هذه مهمة للمساعي المستقبلية.
بمجرد الحصول على المراجعات ، تضمنت الخطوة التالية تخزينها. كان أحد الخيارات هو استخدام Google BigQuery ، والذي يستخدم على نطاق واسع. ومع ذلك ، بعد النظر بعناية ، قررت استخدام أطلس mongodb . إنه يوفر خطة مجانية تسمح بتخزين يصل إلى 5 جيجابايت ، والتي أثبتت أنها أكثر من كافية في هذه الحالة. تجدر الإشارة إلى أن استخدام MongoDB يستلزم نهج الاستعلام مختلف قليلاً مقارنة بـ SQL ، حيث أن MongoDB عبارة عن قاعدة بيانات NOSQL.
لتقديم النتائج بطريقة منظمة وجذابة بصريًا ، قمت بدمج قاعدة بيانات MongoDB ATLAS مع لوحة معلومات التدفق . أثبتت Streamlit أنها خيار مثالي ، حيث عرضت خيارات التخصيص ودعم العديد من مكتبات Python ، بما في ذلك Plotly ، والتي تم استخدامها لتوليد مؤامرات تفاعلية في هذا المشروع.
مع وجود جميع المكونات ، كانت المهمة المتبقية هي أتمتة العملية بأكملها على أساس يومي. لم يكن تكرار هذه الخطوات يدويًا كل يوم ممكنًا. لحسن الحظ ، هناك العديد من خيارات الأتمتة المتاحة ، مع كون إجراءات GitHub واحدة منها. قمت بتكوين إجراءات GitHub لتنفيذ سير عمل المشروع يوميًا في الساعة 9 صباحًا بالتوقيت العالمي+7.
(العودة إلى الأعلى)
يوضح هذا المشروع استخدام نمذجة الموضوع لتحليل مراجعات التطبيق. في حين أن العديد من التقنيات موجودة ، فإن استخدام GPT يثبت أنه خيار قابل للتطبيق ، خاصة بالنسبة للغات الأخرى غير الإنجليزية. آمل أن يكون هذا المستودع بمثابة مرجع قيمة لأولئك الذين يقومون بمهام مماثلة في المستقبل. شكرا لك على القراءة!
(العودة إلى الأعلى)