최근 음성 합성의 발전은 Hifi-Gan 및 Bigvgan과 같은 GAN 기반 네트워크를 활용하여 Mel-spectrograms에서 고 충실도 파형을 생성했습니다. 그러나 이러한 네트워크는 계산적으로 비싸고 매개 변수가 무겁습니다. ISTFTNET은 역 단기간 푸리에 변환 (ISTFT)을 네트워크에 통합하여 속도와 매개 변수 효율을 모두 달성하여 이러한 제한 사항을 해결합니다. 이 논문에서는 고속 추론 속도를 위해 미리 훈련 된 F0 추정 네트워크를 통해 추론 된 기본 주파수 (F0)의 정현파 소스를 사용하는 시간 주파수 영역에 고조파 플러스 노이즈 소스 필터를 통합 한 HiftNet이라고 불리는 ISTFTNET에 확장을 소개합니다. LJSpeech에 대한 주관적인 평가에 따르면 우리 모델은 ISTFTNET과 HIFI-GAN의 실적보다 훨씬 능가하여지면 진실 수준의 성능을 달성합니다. Hiftnet은 또한 보이지 않는 스피커를 위해 Libritts의 BigVGAN-Base를 능가하고 BigVGAN과 비슷한 성능을 달성하면서 매개 변수의 1/6만으로 4 배 빠릅니다. 우리의 작업은 효율적이고 고품질 신경 보코딩을위한 새로운 벤치 마크를 설정하여 고품질의 음성 합성을 요구하는 실시간 응용 프로그램의 길을 열어줍니다.
종이 : https://arxiv.org/abs/2309.09493
오디오 샘플 : https://hiftnet.github.io/
Hiftnet을 인간 수준의 음성 합성을위한 음성 디코더로 사용하는 TTS 작업을 확인하십시오. https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]F0 모델 교육은 YL4579/PitchExtractor를 참조하십시오. 이 repo에는 Libritts에 미리 훈련 된 F0 모델이 포함되어 있습니다. 그럼에도 불구하고 F0 추정 정확도가 보코더 성능에 필수적이라는 것을 알았 기 때문에 특히 시끄러운 성능 또는 비 연설 데이터에 대해 최상의 성능을 위해 자신의 F0 모델을 훈련시킬 수 있습니다.
자세한 내용은 노트북 추정 .ipynb를 참조하십시오.
여기에서 미리 훈련 된 ljspeech 모델과 사전 훈련 된 Libritts 모델을 여기에서 다운로드 할 수 있습니다. 미리 훈련 된 모델에는 미세 조정에 사용할 수있는 최적화 및 판별 자의 매개 변수가 포함되어 있습니다.