Ce projet analyse un ensemble de données contenant toutes les publicités politiques qui fonctionnent sur les plateformes Google aux États-Unis depuis mai 2018. L'objectif est d'explorer la différence de sentiment entre les publicités Trump et Biden en utilisant GPT-3.5 Turbo comme analyseur de sentiment.
Pour exécuter ce projet, suivez ces étapes:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403 Cette commande exécute un conteneur Docker avec l'image selenium/standalone-firefox:4.8.3-20230403 en mode détaché. Le port 4444 dans le conteneur (le port de sélénium) est mappé au port 4445 sur la machine hôte. Le port 5900 dans le conteneur est mappé au port 5901 sur la machine hôte, permettant un accès à distance avec une visionneuse VNC. La taille de la mémoire partagée du conteneur est définie sur 2 Go.
Exécutez les scripts dans l'ordre suivant:
01_prepare_dataset_4_url_scrape.R : Ce script prépare l'ensemble de données pour le grattage d'URL.02_scrape_automation_video_links.R : Ce script utilise Rselenium pour gratter les URL YouTube à partir d'un site Web dynamique.03_trump_biden_subset.R : Ce script sélectionne les annonces des annonceurs qui ont "Trump" ou "Biden" à leur nom et sélectionne au hasard 25 annonces de chaque groupe.04_download_and_transcribe.ipynb : Ce script utilise Google Colab et le package YT-DLP pour télécharger uniquement l'audio de chaque vidéo YouTube et la transcrire à l'aide du modèle de transcription Whisper d'Openai.05_gpt_sentiment_analysis.ipynb : Ce script utilise GPT-3.5 Turbo pour effectuer une analyse des sentiments sur le texte transcrit. Pour les scripts 04_download_and_transcribe.ipynb et 05_gpt_sentiment_analysis.ipynb , vous devrez créer un dossier Google Drive appelé Google_Pol_Ads . Après cela, la structure du dossier doit être la même que ce projet, avec data/data_processed et data/data_raw les dossiers.