โครงการนี้วิเคราะห์ชุดข้อมูลที่มีโฆษณาทางการเมืองทั้งหมดที่ทำงานบนแพลตฟอร์ม Google ในสหรัฐอเมริกาตั้งแต่เดือนพฤษภาคม 2561 เป้าหมายคือการสำรวจความแตกต่างของความเชื่อมั่นระหว่างทรัมป์และโฆษณา Biden โดยใช้ GPT-3.5 Turbo เป็นเครื่องวิเคราะห์ความเชื่อมั่นของเรา
ในการเรียกใช้โครงการนี้ให้ทำตามขั้นตอนเหล่านี้:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403 คำสั่งนี้เรียกใช้คอนเทนเนอร์ Docker พร้อม selenium/standalone-firefox:4.8.3-20230403 ภาพในโหมดเดี่ยว พอร์ต 4444 ในคอนเทนเนอร์ (พอร์ตซีลีเนียม) ถูกแมปกับพอร์ต 4445 บนเครื่องโฮสต์ พอร์ต 5900 ในคอนเทนเนอร์ถูกแมปกับพอร์ต 5901 บนเครื่องโฮสต์ช่วยให้การเข้าถึงระยะไกลพร้อมตัวชม VNC ขนาดหน่วยความจำที่ใช้ร่วมกันสำหรับคอนเทนเนอร์ถูกตั้งค่าเป็น 2GB
เรียกใช้สคริปต์ตามลำดับต่อไปนี้:
01_prepare_dataset_4_url_scrape.R : สคริปต์นี้เตรียมชุดข้อมูลสำหรับการขูด URL02_scrape_automation_video_links.R : สคริปต์นี้ใช้ RSelenium เพื่อขูด URL YouTube จากเว็บไซต์ไดนามิก03_trump_biden_subset.R : สคริปต์นี้เลือกโฆษณาจากผู้โฆษณาที่มี "ทรัมป์" หรือ "biden" ในชื่อของพวกเขาและสุ่มเลือก 25 โฆษณาจากแต่ละกลุ่ม04_download_and_transcribe.ipynb : สคริปต์นี้ใช้ Google colab และแพ็คเกจ YT-DLP เพื่อดาวน์โหลดเพียงเสียงของวิดีโอ YouTube แต่ละรายการและถอดความโดยใช้โมเดลการถอดรหัส Whisper ของ OpenAI05_gpt_sentiment_analysis.ipynb : สคริปต์นี้ใช้ GPT-3.5 Turbo เพื่อทำการวิเคราะห์ความเชื่อมั่นในข้อความที่ถอดความ สำหรับสคริปต์ 04_download_and_transcribe.ipynb และ 05_gpt_sentiment_analysis.ipynb คุณจะต้องสร้างโฟลเดอร์ Google ไดรฟ์ที่เรียกว่า Google_Pol_Ads หลังจากนั้นโครงสร้างโฟลเดอร์ควรจะเหมือนกับโครงการนี้ด้วยโฟลเดอร์ data/data_processed และ data/data_raw