
Moteur de recherche de podcast Spotify
Podcast Search Engine propulsé par ElasticSearch implémenté à l'aide de Python Indexation de l'ensemble de données du podcast Spotify.
Architecture du système

Données de podcast:
- Disponible sur: ensemble de données du podcast Spotify
- Structure des données:
- Fichier JSON divisé en pièces (transcriptions) avec la structure suivante
- Transcription: tous les mots en tant que fichier texte
- Confiance: numéro de flotteur entre 0 et 1
- Mots: chaque mot individuellement avec le début et l'heure de fin
- Fichier de métadonnées:
- Contient le nom du podcast, URI, Description, l'éditeur, la langue, le nom et la durée de l'épisode.
- Il y a un échantillon de test plus petit (1,2 Go) avec la même structure que les autres fichiers: Spotify-Podcasts-2020-Summarisation-TestSet
L'ensemble de données doit être extrait dans le dossier /podcasts-no-audio13GB .
Nécessaire pour GUI et API Web Spotify
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
Configuration Elasticsearch:
- Télécharger Elasticsearch: https://www.elastic.co/start
- Fichier téléchargé unzip
- Allez dans un dossier unzipipped et exécutez bac / elasticsearch
- Pour voir si cela fonctionne: ouvrez le navigateur et allez sur http: // localhost: 9200 /
Configuration du kibana:
- Télécharger Kibana: https://www.elastic.co/start
- Fichier téléchargé unzip
- Allez dans un dossier Unzipipped et exécutez le bac / kibana
- Pour voir si cela fonctionne: ouvrez le navigateur et accédez à http: // localhost: 5601 / app / Management / Data / index_management / Indices, cela devrait montrer vos indices locaux