WebScraper_PolAds
1.0.0
이 프로젝트는 2018 년 5 월부터 미국의 Google 플랫폼에서 실행 된 모든 정치 광고를 포함하는 데이터 세트를 분석합니다. 목표는 GPT-3.5 터보를 정서 분석기로 사용하여 트럼프와 Biden 광고 간의 감정 차이를 탐색하는 것입니다.
이 프로젝트를 실행하려면 다음 단계를 따르십시오.
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403 이 명령은 분리 모드에서 selenium/standalone-firefox:4.8.3-20230403 이미지와 함께 Docker 컨테이너를 실행합니다. 컨테이너 (셀레늄 포트)의 포트 4444는 호스트 머신의 포트 4445에 매핑됩니다. 컨테이너의 포트 5900은 호스트 머신의 포트 5901에 매핑되어 VNC 뷰어와 원격 액세스 할 수 있습니다. 컨테이너의 공유 메모리 크기는 2GB로 설정됩니다.
다음 순서로 스크립트를 실행하십시오.
01_prepare_dataset_4_url_scrape.R :이 스크립트는 URL 스크래핑을위한 데이터 세트를 준비합니다.02_scrape_automation_video_links.R :이 스크립트는 rselenium을 사용하여 동적 웹 사이트에서 YouTube URL을 긁어냅니다.03_trump_biden_subset.R :이 스크립트는 이름에 "trump"또는 "biden"이있는 광고주에서 광고를 선택하고 각 그룹에서 25 개의 광고를 무작위로 선택합니다.04_download_and_transcribe.ipynb :이 스크립트는 Google Colab 및 Package YT-DLP를 사용하여 각 YouTube 비디오의 오디오 만 다운로드하고 OpenAi의 Whisper Transcription Model을 사용하여 전사합니다.05_gpt_sentiment_analysis.ipynb :이 스크립트는 GPT-3.5 터보를 사용하여 전사 된 텍스트에 대한 감정 분석을 수행합니다. 스크립트 04_download_and_transcribe.ipynb 및 05_gpt_sentiment_analysis.ipynb 의 경우 Google_Pol_Ads 라는 Google 드라이브 폴더를 작성해야합니다. 그런 다음 폴더 구조는 data/data_processed 및 data/data_raw 폴더를 사용 하여이 프로젝트와 동일해야합니다.