Dieses Projekt analysiert einen Datensatz, der alle politischen Anzeigen enthält, die seit Mai 2018 auf Google-Plattformen in den USA durchgeführt werden. Ziel ist es, den Stimmungsunterschied zwischen Trump- und Biden-Anzeigen mit GPT-3,5 Turbo als unserem Stimmungsanalysator zu untersuchen.
Um dieses Projekt auszuführen, befolgen Sie die folgenden Schritte:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403 Dieser Befehl führt einen Docker-Container mit dem selenium/standalone-firefox:4.8.3-20230403 Bild im abgetrennten Modus. Port 4444 im Container (der Selen -Port) wird auf Port 4445 auf dem Host -Computer zugeordnet. Port 5900 im Container wird auf dem Host -Computer an Port 5901 zugeordnet, wodurch der Remote -Zugriff mit einem VNC -Viewer ermöglicht wird. Die gemeinsame Speichergröße für den Container ist auf 2 GB gesetzt.
Führen Sie die Skripte in der folgenden Reihenfolge aus:
01_prepare_dataset_4_url_scrape.R : Dieses Skript erstellt den Datensatz für URL -Scraping.02_scrape_automation_video_links.R : Dieses Skript verwendet Rselenium, um die YouTube -URLs von einer dynamischen Website zu kratzen.03_trump_biden_subset.R : Dieses Skript wählt Anzeigen von Werbetreibenden aus, die entweder "Trump" oder "Biden" in ihrem Namen haben und zufällig 25 Anzeigen aus jeder Gruppe auswählen.04_download_and_transcribe.ipynb : Dieses Skript verwendet Google Colab und das Paket YT-DLP, um nur das Audio jedes YouTube-Videos herunterzuladen und es mithilfe von OpenAIs Whisper-Transkriptionsmodell zu transkribieren.05_gpt_sentiment_analysis.ipynb : Dieses Skript verwendet GPT-3.5 Turbo, um die Sentiment-Analyse im transkribierten Text durchzuführen. Für Skripte 04_download_and_transcribe.ipynb und 05_gpt_sentiment_analysis.ipynb müssen Sie einen Google Drive -Ordner namens Google_Pol_Ads erstellen. Danach sollte die Ordnerstruktur mit diesem Projekt mit den Ordnern data/data_processed und data/data_raw übereinstimmen.