
Spotifyポッドキャスト検索エンジン
Elasticsearchが搭載したポッドキャスト検索エンジンPythonインデックスを使用して実装されたPodify Podcastデータセット。
システムアーキテクチャ

ポッドキャストデータ:
- 利用可能:Spotify Podcast Dataset
- データの構造:
- JSONファイルは、次の構造で断片(トランスクリプト)に分かれています
- トランスクリプト:テキストファイルとしてのすべての単語
- 自信:0から1の間のフロート数
- 単語:各単語は、開始時間と終了時間で個別に
- メタデータファイル:
- ポッドキャスト名、URI、説明、出版社、言語、エピソード名、および期間が含まれています。
- 他のファイルと同じ構造を持つより小さな(1.2 GB)テストサンプルがあります:Spotify-Podcasts-2020-Summarization-Testset
データセットは/podcasts-no-audio13GBフォルダーに抽出する必要があります。
GUIおよびSpotify Web APIに必要です
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
ElasticSearchセットアップ:
- Elasticsearch:https://www.elastic.co/startをダウンロードしてください
- ダウンロードされたファイルを解凍します
- 解凍されたフォルダーに移動して、Bin/Elasticsearchを実行します
- それが機能しているかどうかを確認するには:ブラウザを開き、http:// localhost:9200/にアクセスしてください
キバナのセットアップ:
- Kibana:https://www.elastic.co/startをダウンロードしてください
- ダウンロードされたファイルを解凍します
- 解凍されたフォルダーに移動して、Bin/Kibanaを実行します
- それが機能しているかどうかを確認するには:ブラウザを開き、http:// localhost:5601/app/management/data/index_management/indicesにアクセスしてください。