
Поисковая система Spotify Podcast
Покана поисковой системы, работающая на основе Elasticsearch, реализованная с использованием Python, индексирующей набор данных подкаста Spotify.
Системная архитектура

Данные подкаста:
- Доступно по адресу: набор данных подкаста Spotify
- Структура данных:
- Файл JSON, разделенные на части (стенограммы) со следующей структурой
- Стенограмма: все слова как текстовый файл
- Доверие: число плавания между 0 и 1
- Слова: каждое слово индивидуально со временем начала и окончания
- Файл метаданных:
- Содержит имя подкаста, URI, описание, издатель, язык, название эпизода и продолжительность.
- Существует небольшая (1,2 ГБ) испытательный образец с той же структурой, что и другие файлы: spotify-podcasts-2020-summarization-testset
Набор данных должен извлечь в папку /podcasts-no-audio13GB .
Необходимо для GUI и Spotify Web API
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
Настройка Elasticsearch:
- Скачать Elasticsearch: https://www.elastic.co/start
- Unzip скачанный файл
- Перейти в папку беззарежной и запустите бин/Elasticsearch
- Чтобы увидеть, работает ли он: Откройте браузер и перейдите по адресу http: // localhost: 9200/
Настройка Кибаны:
- Скачать Kibana: https://www.elastic.co/start
- Unzip скачанный файл
- Перейти в папку с неразрытой
- Чтобы увидеть, работает ли он: Откройте браузер и перейдите по адресу http: // localhost: 5601/app/management/data/index_management/indicse Это должно показать ваши локальные индексы