WebScraper_PolAds
1.0.0
このプロジェクトでは、2018年5月以降、米国のGoogleプラットフォームで実行されているすべての政治広告を含むデータセットを分析します。目標は、GPT-3.5 Turboを使用してTrump-3.5 Turboを使用して、TrumpとBidenの広告の感情の違いを探求することです。
このプロジェクトを実行するには、次の手順に従ってください。
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403このコマンドはselenium/standalone-firefox:4.8.3-20230403イメージを備えたDockerコンテナを取り外したモードで実行します。コンテナのポート4444(セレンポート)は、ホストマシンのポート4445にマッピングされています。コンテナ内のポート5900は、ホストマシンのポート5901にマッピングされ、VNCビューアを使用したリモートアクセスが可能になります。コンテナの共有メモリサイズは2GBに設定されています。
次の順序でスクリプトを実行します。
01_prepare_dataset_4_url_scrape.R :このスクリプトは、URLスクレイピングのためにデータセットを準備します。02_scrape_automation_video_links.R :このスクリプトは、rseleniumを使用して、動的なWebサイトからYouTube URLを削ります。03_trump_biden_subset.R :このスクリプトは、名前に「トランプ」または「バイデン」のいずれかを持っている広告主から広告を選択し、各グループから25広告をランダムに選択します。04_download_and_transcribe.ipynb :このスクリプトは、Google ColabとパッケージYT-DLPを使用して、各YouTubeビデオのオーディオのみをダウンロードし、OpenaiのWhisper Transcriptionモデルを使用して転写します。05_gpt_sentiment_analysis.ipynb :このスクリプトでは、gpt-3.5ターボを使用して、転写されたテキストで感情分析を実行します。スクリプト04_download_and_transcribe.ipynbおよび05_gpt_sentiment_analysis.ipynbの場合、 Google_Pol_AdsというGoogleドライブフォルダーを作成する必要があります。その後、フォルダー構造は、 data/data_processedおよびdata/data_rawフォルダーを使用して、このプロジェクトと同じである必要があります。