WebScraper_PolAds
1.0.0
該項目分析了一個數據集,該數據集包含自2018年5月以來在美國的Google平台上運行的所有政治廣告。目標是使用GPT-3.5 Turbo作為我們的情感分析儀探索特朗普和拜登廣告之間的情感差異。
要運行此項目,請執行以下步驟:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403此命令以selenium/standalone-firefox:4.8.3-20230403圖像在分離模式下運行Docker容器。容器(硒端口)中的端口4444映射到主機機器上的端口4445。容器中的端口5900映射到主機機上的端口5901,允許使用VNC查看器遠程訪問。容器的共享存儲器大小設置為2GB。
按以下順序運行腳本:
01_prepare_dataset_4_url_scrape.R :此腳本準備用於URL刮擦的數據集。02_scrape_automation_video_links.R :此腳本使用rselenium從動態網站上刮擦YouTube URL。03_trump_biden_subset.R :此腳本從具有“王牌”或“拜登”的廣告商中選擇廣告,並隨機從每個組中選擇25個廣告。04_download_and_transcribe.ipynb :此腳本使用Google Colab和軟件包YT-DLP僅下載每個YouTube視頻的音頻,並使用OpenAI的Whisper Transcripts模型轉錄它。05_gpt_sentiment_analysis.ipynb :此腳本使用GPT-3.5 Turbo對抄錄文本進行情感分析。對於腳本04_download_and_transcribe.ipynb和05_gpt_sentiment_analysis.ipynb ,您將需要創建一個稱為Google_Pol_Ads的Google驅動器文件夾。之後,文件夾結構應與此項目相同,並具有data/data_processed和data/data_raw文件夾。