Proyek ini menganalisis dataset yang berisi semua iklan politik yang telah berjalan di platform Google di Amerika Serikat sejak Mei 2018. Tujuannya adalah untuk mengeksplorasi perbedaan sentimen antara iklan Trump dan Biden menggunakan GPT-3.5 Turbo sebagai penganalisa sentimen kami.
Untuk menjalankan proyek ini, ikuti langkah -langkah ini:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403 Perintah ini menjalankan wadah Docker dengan selenium/standalone-firefox:4.8.3-20230403 gambar dalam mode terpisah. Port 4444 dalam wadah (port selenium) dipetakan ke port 4445 pada mesin host. Port 5900 dalam wadah dipetakan ke port 5901 pada mesin host, memungkinkan akses jarak jauh dengan penampil VNC. Ukuran memori bersama untuk wadah diatur ke 2GB.
Jalankan skrip dalam urutan berikut:
01_prepare_dataset_4_url_scrape.R : Script ini menyiapkan dataset untuk pengikisan URL.02_scrape_automation_video_links.R : Script ini menggunakan rselenium untuk mengikis URL YouTube dari situs web yang dinamis.03_trump_biden_subset.R : Skrip ini memilih iklan dari pengiklan yang memiliki "Trump" atau "Biden" dalam nama mereka dan secara acak memilih 25 iklan dari masing -masing grup.04_download_and_transcribe.ipynb : Script ini menggunakan Google Colab dan paket YT-DLP untuk mengunduh hanya audio dari setiap video YouTube dan menyalinnya menggunakan model transkripsi Whisper Openai.05_gpt_sentiment_analysis.ipynb : Skrip ini menggunakan GPT-3.5 Turbo untuk melakukan analisis sentimen pada teks yang ditranskripsikan. Untuk skrip 04_download_and_transcribe.ipynb dan 05_gpt_sentiment_analysis.ipynb , Anda perlu membuat folder Google Drive yang disebut Google_Pol_Ads . Setelah itu, struktur folder harus sama dengan proyek ini, dengan folder data/data_processed dan data/data_raw .