
Mecanismo de busca de podcast do Spotify
Engine de busca de podcast alimentado pelo Elasticsearch implementado usando o conjunto de dados Python Indexing the Spotify Podcast.
Arquitetura do sistema

Dados do podcast:
- Disponível em: DataSet de podcast do Spotify
- Estrutura dos dados:
- Arquivo JSON dividido em pedaços (transcrições) com a seguinte estrutura
- Transcrição: todas as palavras como um arquivo de texto
- Confiança: Número da flutuação entre 0 e 1
- Palavras: cada palavra individualmente com o horário de início e término
- Arquivo de metadados:
- Contém nome de podcast, URI, descrição, editor, idioma, nome do episódio e duração.
- Há uma amostra de teste menor (1,2 GB) com a mesma estrutura que os outros arquivos: Spotify-Podcasts-2020-Summarization-testSet
O conjunto de dados deve ser extraído na pasta /podcasts-no-audio13GB .
Necessário para a GUI e o Spotify Web API
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
Elasticsearch Setup:
- Download Elasticsearch: https://www.elastic.co/start
- arquivo baixado do Unzip
- Vá para a pasta descompactada e execute o bin/elasticsearch
- Para ver se está funcionando: Open Browser e vá para http: // localhost: 9200/
Configuração de Kibana:
- Baixe Kibana: https://www.elastic.co/start
- arquivo baixado do Unzip
- Vá para a pasta descompactada e corra bin/kibana
- Para ver se está funcionando: Open Browser e vá para http: // localhost: 5601/app/gerenciamento/data/index_management/índices, isso deve mostrar seus índices locais