WebScraper_PolAds
1.0.0
该项目分析了一个数据集,该数据集包含自2018年5月以来在美国的Google平台上运行的所有政治广告。目标是使用GPT-3.5 Turbo作为我们的情感分析仪探索特朗普和拜登广告之间的情感差异。
要运行此项目,请执行以下步骤:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403此命令以selenium/standalone-firefox:4.8.3-20230403图像在分离模式下运行Docker容器。容器(硒端口)中的端口4444映射到主机机器上的端口4445。容器中的端口5900映射到主机机上的端口5901,允许使用VNC查看器远程访问。容器的共享存储器大小设置为2GB。
按以下顺序运行脚本:
01_prepare_dataset_4_url_scrape.R :此脚本准备用于URL刮擦的数据集。02_scrape_automation_video_links.R :此脚本使用rselenium从动态网站上刮擦YouTube URL。03_trump_biden_subset.R :此脚本从具有“王牌”或“拜登”的广告商中选择广告,并随机从每个组中选择25个广告。04_download_and_transcribe.ipynb :此脚本使用Google Colab和软件包YT-DLP仅下载每个YouTube视频的音频,并使用OpenAI的Whisper Transcripts模型转录它。05_gpt_sentiment_analysis.ipynb :此脚本使用GPT-3.5 Turbo对抄录文本进行情感分析。对于脚本04_download_and_transcribe.ipynb和05_gpt_sentiment_analysis.ipynb ,您将需要创建一个称为Google_Pol_Ads的Google驱动器文件夹。之后,文件夹结构应与此项目相同,并具有data/data_processed和data/data_raw文件夹。