
Mesin pencari podcast Spotify
Mesin pencari podcast yang ditenagai oleh Elasticsearch diimplementasikan menggunakan pengindeksan python dataset podcast Spotify.
Arsitektur Sistem

Data podcast:
- Tersedia di: Dataset Podcast Spotify
- Struktur data:
- File JSON dibagi menjadi potongan -potongan (transkrip) dengan struktur berikut
- Transkrip: Semua kata sebagai file teks
- Keyakinan: Nomor pelampung antara 0 dan 1
- Kata -kata: Setiap kata secara individual dengan waktu mulai dan akhir
- File Metadata:
- Berisi nama podcast, URI, deskripsi, penerbit, bahasa, nama episode dan durasi.
- Ada sampel uji yang lebih kecil (1,2 GB) dengan struktur yang sama dengan file lainnya: Spotify-Podcasts-2020-Summarisasi-Testset
Dataset harus diekstraksi ke folder /podcasts-no-audio13GB .
Diperlukan untuk GUI dan Spotify Web API
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
Pengaturan Elasticsearch:
- Unduh Elasticsearch: https://www.elastic.co/start
- unzip file yang diunduh
- Pergi ke folder unzip dan jalankan bin/elasticsearch
- Untuk melihat apakah itu berfungsi: buka browser dan kunjungi http: // localhost: 9200/
Pengaturan Kibana:
- Unduh Kibana: https://www.elastic.co/start
- unzip file yang diunduh
- Pergi ke folder unzip dan jalankan bin/kibana
- Untuk melihat apakah itu berfungsi: buka browser dan kunjungi http: // localhost: 5601/app/manajemen/data/index_management/indices Ini harus menunjukkan indeks lokal Anda