TTS 및 관련 응용 프로그램에 대한 음성 분석/합성 시스템.
이 소프트웨어는 논문에 설명 된 방법을 기반으로합니다.
F. Espic, C. Valentini-Botinhao 및 S. King,“통계적 파라 메트릭 음성 합성을위한 크기 및 위상 스펙트럼의 직접 모델링”, Proc. Interspeech, 스톡홀름, 스웨덴, 2017 년 8 월.
@ 저자 : Felipe Espic
자세한 내용은 http://www.felipeespic.com/magphase/를 참조하십시오.
이것은 통계 파라 메트릭 스피치 합성 (SPSS)에 사용되는 음성 파형 분석/합성 시스템입니다.
분석 모듈은 크기 스펙트럼, 위상 스펙트럼 및 F0을 설명하는 4 개의 특징 스트림을 추출합니다. 이러한 기능은 회귀 모델 (예 : DNN, LSTM, HMM 등)을 훈련시키는 데 사용될 수 있으므로 예측 값을 생성 할 수 있습니다. 합성 모듈은 최종 합성 파형을 생성하기 위해 입력에서 이러한 기능을 취합니다.
핵심 사항 :
자세한 내용은 라이센스 파일을 참조하십시오.
pip install numpy scipy soundfile matplotlib
magphase : git clone https://github.com/CSTR-Edinburgh/magphase.git
SPTK 및 Reaper를 다운로드하여 컴파일합니다.
cd magphase/tools
./download_and_compile_tools.sh
이것은 SPTK와 Reper를 자동으로 컴파일하고 구성합니다 ... 그리고 그게 다야!
/demos 로 이동하여 데모 스크립트 내부의 지침을 읽습니다. python <demo_script> 실행하여 상자에서 떨어져야합니다.
우리는 당신이 demo_copy_synthesis_lossless.py 로 먼저 플레이 한 다음 demo_copy_synthesis_low_dim.py 모두 분석/합성 루틴을 수행한다는 것을 추천합니다.
그런 다음 요구에 맞게 데모 스크립트를 수정할 수 있습니다.
참고 : 위치에서 스크립트를 실행해야합니다.
우리는 멀린의 공식 배포로 배포 된 두 개의 데모를 제공합니다. 이들은 Magphase 통합과 함께 Merlin의 예를 보여줍니다.
텍스트 음성 : Merlin의 SLT_ARCTIC 데모 (작은 및 전체 하위 세트 버전)
음성 변환 : 멀린의 음성 변환 데모 (대략 테스트)
이 소프트웨어를 개선하는 데 도움이 필요합니다. 다음과 같이 공동 작업 할 수 있습니다.
Merlin과 Magphase를 사용하여 TTS 목소리를 구축하고 다른 보코더와 비교합니다. 그런 다음 결과를 알려주십시오. 우리는 몇 가지 목소리로 만 막상을 테스트했으며 더 넓은 범위를 커버해야합니다. 우리는 최근 새로운 데이터를 사용하여 결과를보고 한 사람들 덕분에 나온 몇 가지 버그를 수정했습니다.
Merlin에서 기본 변수 프레임 속도 지원 구현. Magphase는 가변 프레임 속도 방식으로 작동합니다 (피치 동기).