
Motor de búsqueda de podcast Spotify
El motor de búsqueda de podcast alimentado por Elasticsearch implementado con Python indexando el conjunto de datos de podcasts Spotify.
Arquitectura del sistema

Datos de podcast:
- Disponible en: Spotify Podcast DataSet
- Estructura de los datos:
- Archivo json dividido en piezas (transcripciones) con la siguiente estructura
- Transcripción: todas las palabras como un archivo de texto
- Confianza: número flotante entre 0 y 1
- Palabras: cada palabra individualmente con tiempo de inicio y finalización
- Archivo de metadatos:
- Contiene nombre de podcast, URI, descripción, editor, idioma, nombre del episodio y duración.
- Hay una muestra de prueba más pequeña (1.2 GB) con la misma estructura que los otros archivos: Spotify-Podcasts-2020-Summarization-testset
El conjunto de datos debe extraerse en la carpeta /podcasts-no-audio13GB .
Necesario para la API web de GUI y Spotify
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
Configuración de ElasticSearch:
- Descargar Elasticsearch: https://www.elastic.co/start
- UNZIP ARCHIVO DESCARGADO
- Vaya a la carpeta desabrochable y ejecute bin/elasticsearch
- Para ver si está funcionando: Abra el navegador y vaya a http: // localhost: 9200/
Configuración de Kibana:
- Descargar kibana: https://www.elastic.co/start
- UNZIP ARCHIVO DESCARGADO
- ir a la carpeta desabrochable y ejecutar bin/kibana
- Para ver si está funcionando: Abra el navegador y vaya a http: // localhost: 5601/app/ganagement/data/index_management/índices Esto debería mostrar sus índices locales