Este proyecto analiza un conjunto de datos que contiene todos los anuncios políticos que se han ejecutado en las plataformas de Google en los Estados Unidos desde mayo de 2018. El objetivo es explorar la diferencia de sentimientos entre los anuncios de Trump y Biden utilizando GPT-3.5 Turbo como nuestro analizador de sentimientos.
Para ejecutar este proyecto, siga estos pasos:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403 Este comando ejecuta un contenedor Docker con el selenium/standalone-firefox:4.8.3-20230403 Imagen en modo separado. El puerto 4444 en el contenedor (el puerto de selenio) se asigna al puerto 4445 en la máquina host. El puerto 5900 en el contenedor se asigna al puerto 5901 en la máquina host, lo que permite el acceso remoto con un visor VNC. El tamaño de memoria compartida para el contenedor se establece en 2GB.
Ejecute los scripts en el siguiente orden:
01_prepare_dataset_4_url_scrape.R : este script prepara el conjunto de datos para el raspado de URL.02_scrape_automation_video_links.R : este script usa Rselenium para raspar las URL de YouTube de un sitio web dinámico.03_trump_biden_subset.R : Este script selecciona anuncios de anunciantes que tienen "Trump" o "Biden" en su nombre y selecciona al azar 25 anuncios de cada grupo.04_download_and_transcribe.ipynb : este script usa Google Colab y el paquete YT-DLP para descargar solo el audio de cada video de YouTube y lo transcribe utilizando el modelo de transcripción Whisper de OpenAI.05_gpt_sentiment_analysis.ipynb : Este script usa GPT-3.5 Turbo para realizar un análisis de sentimientos en el texto transcrito. Para scripts 04_download_and_transcribe.ipynb y 05_gpt_sentiment_analysis.ipynb , deberá crear una carpeta de Google Drive llamada Google_Pol_Ads . Después de eso, la estructura de la carpeta debe ser la misma que este proyecto, con las carpetas data/data_processed y data/data_raw .