В этом проекте анализируется набор данных, содержащий все политические объявления, которые работают на платформах Google в Соединенных Штатах с мая 2018 года. Цель состоит в том, чтобы изучить разницу с чувствами между рекламой Трампа и Байдена с использованием GPT-3.5 Turbo в качестве нашего анализатора настроений.
Чтобы запустить этот проект, следуйте этим шагам:
docker run -d -p 4445:4444 -p 5901:5900 --shm-size= " 2g " selenium/standalone-firefox:4.8.3-20230403 Эта команда запускает контейнер Docker с изображением selenium/standalone-firefox:4.8.3-20230403 в отдельном режиме. Порт 4444 в контейнере (порт селена) отображается с портом 4445 на хост -машине. Порт 5900 в контейнере сопоставлен с портом 5901 на хост -машине, что позволяет удаленный доступ с VNC Viewer. Общий размер памяти для контейнера установлен на 2 ГБ.
Запустите сценарии в следующем порядке:
01_prepare_dataset_4_url_scrape.R : этот скрипт готовит набор данных для соскоба URL.02_scrape_automation_video_links.R : этот скрипт использует rselenium для сокраски URL -адреса YouTube с динамического веб -сайта.03_trump_biden_subset.R04_download_and_transcribe.ipynb : этот скрипт использует Google Colab и пакет YT-DLP для загрузки только аудио каждого видео YouTube и транскрибирует его с помощью модели транскрипции Whisper Openai.05_gpt_sentiment_analysis.ipynb : В этом сценарии используется GPT-3.5 Turbo для проведения анализа настроений на транскрибированном тексту. Для сценариев 04_download_and_transcribe.ipynb и 05_gpt_sentiment_analysis.ipynb , вам нужно будет создать папку Google Drive с именем Google_Pol_Ads . После этого структура папок должна быть такой же, как и этот проект, с папками data/data_processed и data/data_raw .