Download do HiFTNet - Download do código -fonte HiFTNet

HiFTNet

Código-Fonte de IA

1.0.0

Baixar

HiftNet: um vocoder neural de alta qualidade rápido com filtro harmônico-mais-ruído e transformação inversa de Fourier de curto tempo

Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani

Avanços recentes na síntese de fala alavancaram redes baseadas em GaN, como Hifi-Gan e Bigvgan, para produzir formas de onda de alta fidelidade a partir de espectrogramas MEL. No entanto, essas redes são computacionalmente caras e pesadas de parâmetros. O ISTFTNET aborda essas limitações integrando a transformação inversa de Fourier de curto tempo (ISTFT) na rede, alcançando a eficiência de velocidade e parâmetro. Neste artigo, introduzimos uma extensão ao ISTFTNET, denominada HiftNet, que incorpora um filtro de origem harmônico-mais-ruído no domínio de frequência de tempo que usa uma fonte sinusoidal da frequência fundamental (F0) inferida através de uma rede de estimativa F0 pré-treinamento para velocidade de inferência rápida. As avaliações subjetivas no LJSpeech mostram que nosso modelo supera significativamente o ISTFTNET e o HIFI-GAN, alcançando o desempenho no nível da verdade no solo. O HiftNet também supera o Bigvgan-Base em Libritts para alto-falantes invisíveis e atinge o desempenho comparável ao bigvgan, sendo quatro vezes mais rápido com apenas 1/6 dos parâmetros. Nosso trabalho define uma nova referência para vocoding neural eficiente e de alta qualidade, abrindo caminho para aplicativos em tempo real que exigem síntese de fala de alta qualidade.

Papel: https://arxiv.org/abs/2309.09493

Amostras de áudio: https://hiftnet.github.io/

Verifique nosso trabalho TTS que usa o hiftnet como decodificador de fala para a síntese de fala em nível humano aqui: https://github.com/yl4579/styletts2

Pré-requisitos

Python> = 3.7
Clone este repositório:

git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNet

Instale os requisitos do Python:

pip install -r requirements.txt

Treinamento

python train.py --config config_v1.json --[args]

Para o treinamento do modelo F0, consulte YL4579/PitchExtractor. Este repositório inclui um modelo F0 pré-treinado no Libritts. Ainda assim, convém treinar seu próprio modelo F0 para obter o melhor desempenho, principalmente para dados barulhentos ou não de fala, pois descobrimos que a precisão da estimativa do F0 é essencial para o desempenho do vocoder.

Inferência

Consulte o notebook inference.ipynb para obter detalhes.

Modelos pré-treinados

Você pode baixar o modelo LJSpeech pré-treinado aqui e o modelo Libritts pré-treinado aqui. Os modelos pré-treinados contêm parâmetros dos otimizadores e discriminadores que podem ser usados para ajuste fino.