
Spotify播客搜索引擎
播客搜索引擎由使用Python索引Spotify播客數據集實施的Elasticsearch供電。
系統體系結構

播客數據:
- 在以下網址可用:Spotify播客數據集
- 數據結構:
- JSON文件分為零件(成績單),具有以下結構
- 成績單:所有單詞作為文本文件
- 信心:0到1之間的浮數
- 單詞:每個單詞都有開始和結束時間
- 元數據文件:
- 包含播客名稱,URI,說明,發布者,語言,情節名稱和持續時間。
- 有一個較小(1.2 GB)的測試樣本,其結構與其他文件相同:Spotify podcasts-2020-Summarization-testset
數據集應提取到/podcasts-no-audio13GB文件夾。
GUI和Spotify Web API所需
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
Elasticsearch設置:
- 下載Elasticsearch:https://www.elastic.co/start
- 解壓縮下載文件
- 轉到Unized文件夾並運行垃圾箱/Elasticsearch
- 查看是否有效:打開瀏覽器,然後訪問http:// localhost:9200/
Kibana設置:
- 下載Kibana:https://www.elastic.co/start
- 解壓縮下載文件
- 轉到未拉緊的文件夾並運行bin/kibana
- 要查看它是否有效:打開瀏覽器並訪問http:// localhost:5601/app/management/data/data/index_management/Indices這應該顯示您的本地索引