يحلل هذا المشروع مجموعة بيانات تحتوي على جميع الإعلانات السياسية التي تم تشغيلها على منصات Google في الولايات المتحدة منذ مايو 2018. والهدف من ذلك هو استكشاف اختلاف المشاعر بين إعلانات ترامب وبايدن باستخدام GPT-3.5 Turbo كمحلل المشاعر لدينا.
لتشغيل هذا المشروع ، اتبع هذه الخطوات:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403 يقوم هذا الأمر بتشغيل حاوية Docker مع صورة selenium/standalone-firefox:4.8.3-20230403 في الوضع المنفصل. يتم تعيين المنفذ 4444 في الحاوية (منفذ السيلينيوم) إلى المنفذ 4445 على جهاز المضيف. يتم تعيين المنفذ 5900 في الحاوية إلى المنفذ 5901 على جهاز المضيف ، مما يتيح الوصول عن بُعد مع عارض VNC. يتم ضبط حجم الذاكرة المشتركة للحاوية على 2 جيجابايت.
قم بتشغيل البرامج النصية بالترتيب التالي:
01_prepare_dataset_4_url_scrape.R : يقوم هذا البرنامج النصي بإعداد مجموعة البيانات لخرق URL.02_scrape_automation_video_links.R : يستخدم هذا البرنامج النصي Rselenium لكشط عناوين URL على موقع YouTube من موقع ويب ديناميكي.03_trump_biden_subset.R : يختار هذا البرنامج النصي إعلانات من المعلنين الذين لديهم "ترامب" أو "بايدن" باسمهم ويختار 25 إعلانًا بشكل عشوائي من كل مجموعة.04_download_and_transcribe.ipynb : يستخدم هذا البرنامج النصي Google Colab والحزمة YT-DLP لتنزيل صوت كل فيديو على YouTube ونسخه باستخدام طراز Transcription Whisper الخاص بـ Openai.05_gpt_sentiment_analysis.ipynb : يستخدم هذا البرنامج النصي GPT-3.5 Turbo لإجراء تحليل المشاعر على النص المكتوب. للبرامج النصية 04_download_and_transcribe.ipynb و 05_gpt_sentiment_analysis.ipynb ، ستحتاج إلى إنشاء مجلد Google Drive يسمى Google_Pol_Ads . بعد ذلك ، يجب أن تكون بنية المجلد هي نفسها مثل هذا المشروع ، مع data/data_processed ومجلدات data/data_raw .