Avanços recentes na síntese de fala alavancaram redes baseadas em GaN, como Hifi-Gan e Bigvgan, para produzir formas de onda de alta fidelidade a partir de espectrogramas MEL. No entanto, essas redes são computacionalmente caras e pesadas de parâmetros. O ISTFTNET aborda essas limitações integrando a transformação inversa de Fourier de curto tempo (ISTFT) na rede, alcançando a eficiência de velocidade e parâmetro. Neste artigo, introduzimos uma extensão ao ISTFTNET, denominada HiftNet, que incorpora um filtro de origem harmônico-mais-ruído no domínio de frequência de tempo que usa uma fonte sinusoidal da frequência fundamental (F0) inferida através de uma rede de estimativa F0 pré-treinamento para velocidade de inferência rápida. As avaliações subjetivas no LJSpeech mostram que nosso modelo supera significativamente o ISTFTNET e o HIFI-GAN, alcançando o desempenho no nível da verdade no solo. O HiftNet também supera o Bigvgan-Base em Libritts para alto-falantes invisíveis e atinge o desempenho comparável ao bigvgan, sendo quatro vezes mais rápido com apenas 1/6 dos parâmetros. Nosso trabalho define uma nova referência para vocoding neural eficiente e de alta qualidade, abrindo caminho para aplicativos em tempo real que exigem síntese de fala de alta qualidade.
Papel: https://arxiv.org/abs/2309.09493
Amostras de áudio: https://hiftnet.github.io/
Verifique nosso trabalho TTS que usa o hiftnet como decodificador de fala para a síntese de fala em nível humano aqui: https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]Para o treinamento do modelo F0, consulte YL4579/PitchExtractor. Este repositório inclui um modelo F0 pré-treinado no Libritts. Ainda assim, convém treinar seu próprio modelo F0 para obter o melhor desempenho, principalmente para dados barulhentos ou não de fala, pois descobrimos que a precisão da estimativa do F0 é essencial para o desempenho do vocoder.
Consulte o notebook inference.ipynb para obter detalhes.
Você pode baixar o modelo LJSpeech pré-treinado aqui e o modelo Libritts pré-treinado aqui. Os modelos pré-treinados contêm parâmetros dos otimizadores e discriminadores que podem ser usados para ajuste fino.