语音合成的最新进展已利用基于GAN的网络(例如Hifi-Gan和Bigvgan)从MEL-SPECTROGRAM中产生高保真波形。但是,这些网络在计算上是昂贵且参数繁重的。 ISTFTNET通过将反相反的傅立叶变换(ISTFT)集成到网络中来解决这些局限性,从而达到速度和参数效率。在本文中,我们引入了一个称为HIFTNET的ISTFTNET的扩展名,该扩展名在时频域中包含了一个谐波加上噪声源过滤器,该过滤器使用通过预训练的F0估计网络推断出的基本频率(F0)的正弦源,以获得快速的选择速度。对LJSpeech的主观评估表明,我们的模型显着优于ISTFTNET和HIFI-GAN,可以实现地面级别的性能。 HIFTNET还在库中胜过Bigvgan基数,在看不见的扬声器上,与Bigvgan的性能相当,而只有1/6参数的速度快四倍。我们的工作为高效,高质量的神经声音设计树立了新的基准,为需要高质量语音综合的实时应用铺平了道路。
论文:https://arxiv.org/abs/2309.09493
音频样本:https://hiftnet.github.io/
在此处查看使用HIFTNet作为人级语音综合的语音解码器的TTS工作:https://github.com/yl4579/styletts22
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]有关F0型号培训,请参阅YL4579/PitchExtractor。此存储库包括在库中进行的预训练的F0模型。尽管如此,您可能还需要训练自己的F0模型以获得最佳性能,尤其是对于嘈杂或非语音数据,因为我们发现F0估计精度对于Vocoder的性能至关重要。
有关详细信息,请参阅笔记本the the notebook the。
您可以在此处下载预先训练的LJSpeech模型,并在此处下载预训练的库板模型。预训练的模型包含可用于微调的优化器和歧视器的参数。