
محرك بحث بودكاست سبوتيفي
Podcast Search Engine مدعوم من Elasticsearch التي تم تنفيذها باستخدام Python فهرسة مجموعة بيانات Spotify Podcast.
بنية النظام

بيانات البودكاست:
- متوفر في: مجموعة بيانات Spotify Podcast
- هيكل البيانات:
- ملف JSON مقسمة إلى قطع (نصوص) بالهيكل التالي
- نص: كل الكلمات كملف نصي
- الثقة: رقم تعويم بين 0 و 1
- الكلمات: كل كلمة بشكل فردي مع وقت البدء والنهاية
- ملف البيانات الوصفية:
- يحتوي على اسم البودكاست ، URI ، الوصف ، الناشر ، اللغة ، اسم الحلقة والمدة.
- هناك عينة اختبار أصغر (1.2 جيجابايت) مع نفس بنية الملفات الأخرى: اختبار spotify-podcasts-2020-Summarization-testset
يجب أن يتم استخراج مجموعة البيانات في مجلد /podcasts-no-audio13GB .
اللازمة ل GUI و Spotify Web API
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
إعداد Elasticsearch:
- تنزيل Elasticsearch: https://www.elastic.co/start
- ملف تنزيل unzip
- انتقل إلى مجلد غير مصدفة وقم بتشغيل bin/elasticsearch
- لمعرفة ما إذا كان يعمل: فتح متصفح وانتقل إلى http: // localhost: 9200/
إعداد كيبانا:
- تنزيل kibana: https://www.elastic.co/start
- ملف تنزيل unzip
- انتقل إلى مجلد غير مضغوط وركض بن/كيبانا
- لمعرفة ما إذا كان يعمل: فتح متصفح وانتقل إلى http: // localhost: 5601/app/management/data/index_management