Este projeto analisa um conjunto de dados que contém todos os anúncios políticos executados nas plataformas do Google nos Estados Unidos desde maio de 2018. O objetivo é explorar a diferença de sentimento entre os anúncios de Trump e Biden usando o GPT-3.5 Turbo como nosso analisador de sentimentos.
Para executar este projeto, siga estas etapas:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403 Este comando é executado um contêiner do docker com a imagem selenium/standalone-firefox:4.8.3-20230403 no modo destacado. A porta 4444 no contêiner (a porta de selênio) é mapeada para a porta 4445 na máquina host. A porta 5900 no contêiner é mapeada para a porta 5901 na máquina host, permitindo acesso remoto com um visualizador VNC. O tamanho da memória compartilhada para o contêiner é definido como 2 GB.
Execute os scripts na seguinte ordem:
01_prepare_dataset_4_url_scrape.R : Este script prepara o conjunto de dados para raspagem de URL.02_scrape_automation_video_links.R : Este script usa o Rselenium para raspar os URLs do YouTube de um site dinâmico.03_trump_biden_subset.R : Este script seleciona anúncios de anunciantes que têm "Trump" ou "Biden" em seu nome e seleciona aleatoriamente 25 anúncios de cada grupo.04_download_and_transcribe.ipynb : Este script usa o Google Colab e o pacote yt-dlp para baixar apenas o áudio de cada vídeo do YouTube e transcra-o usando o modelo de transcrição sussurrado do OpenAI.05_gpt_sentiment_analysis.ipynb : Este script usa o GPT-3.5 Turbo para executar análises de sentimentos no texto transcrito. Para scripts 04_download_and_transcribe.ipynb e 05_gpt_sentiment_analysis.ipynb , você precisará criar uma pasta do Google Drive chamada Google_Pol_Ads . Depois disso, a estrutura da pasta deve ser a mesma que este projeto, com as pastas data/data_processed e data/data_raw .