
Spotify播客搜索引擎
播客搜索引擎由使用Python索引Spotify播客数据集实施的Elasticsearch供电。
系统体系结构

播客数据:
- 在以下网址可用:Spotify播客数据集
- 数据结构:
- JSON文件分为零件(成绩单),具有以下结构
- 成绩单:所有单词作为文本文件
- 信心:0到1之间的浮数
- 单词:每个单词都有开始和结束时间
- 元数据文件:
- 包含播客名称,URI,说明,发布者,语言,情节名称和持续时间。
- 有一个较小(1.2 GB)的测试样本,其结构与其他文件相同:Spotify podcasts-2020-Summarization-testset
数据集应提取到/podcasts-no-audio13GB文件夹。
GUI和Spotify Web API所需
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
Elasticsearch设置:
- 下载Elasticsearch:https://www.elastic.co/start
- 解压缩下载文件
- 转到Unized文件夹并运行垃圾箱/Elasticsearch
- 查看是否有效:打开浏览器,然后访问http:// localhost:9200/
Kibana设置:
- 下载Kibana:https://www.elastic.co/start
- 解压缩下载文件
- 转到未拉紧的文件夹并运行bin/kibana
- 要查看它是否有效:打开浏览器并访问http:// localhost:5601/app/management/data/data/index_management/Indices这应该显示您的本地索引