
Spotify Podcast 검색 엔진
Spotify Podcast 데이터 세트를 사용하여 구현 된 Elasticsearch가 구현 한 팟 캐스트 검색 엔진.
시스템 아키텍처

팟 캐스트 데이터 :
- 사용 가능 : Spotify Podcast 데이터 세트
- 데이터 구조 :
- JSON 파일은 다음 구조의 조각 (성적 증명서)으로 나뉩니다.
- Transcript : 모든 단어는 텍스트 파일입니다
- 신뢰 : 0과 1 사이의 플로트 번호
- 단어 : 각 단어는 시작 및 종료 시간으로 개별적으로
- 메타 데이터 파일 :
- 팟 캐스트 이름, URI, 설명, 게시자, 언어, 에피소드 이름 및 기간이 포함되어 있습니다.
- 다른 파일과 동일한 구조를 가진 더 작은 (1.2GB) 테스트 샘플이 있습니다 : Spotify-Podcasts-2020-Summarization-Testset
데이터 세트는 /podcasts-no-audio13GB 폴더로 추출되어야합니다.
GUI 및 Spotify Web API에 필요합니다
pip install requirements.txt
sudo apt-get install python3-tk
sudo apt install tkinter
export SPOTIPY_CLIENT_ID='your-client-id'
export SPOTIPY_CLIENT_SECRET='your-client-secret'
Elasticsearch 설정 :
- Elasticsearch : https://www.elastic.co/start를 다운로드하십시오
- unzip 다운로드 파일
- 압축이없는 폴더로 이동하여 Bin/Elasticsearch를 실행하십시오
- 작동하는지 확인하려면 : 브라우저를 열고 http : // localhost : 9200/로 이동하십시오.
키바나 설정 :
- Kibana : https://www.elastic.co/start를 다운로드하십시오
- unzip 다운로드 파일
- 압축이없는 폴더로 이동하여 빈/키바나를 실행하십시오
- 작동 중인지 확인하려면 : 브라우저를 열고 http : // localhost : 5601/app/management/data/index_management/indices로 이동하여 로컬 지수를 표시해야합니다.