Los avances recientes en la síntesis del habla han aprovechado las redes basadas en GaN como Hifi-Gan y BigVgan para producir formas de onda de alta fidelidad a partir de espectrogramas MEL. Sin embargo, estas redes son computacionalmente caras y pesadas de parámetros. ISTFTNet aborda estas limitaciones integrando la transformación inversa de Fourier a corto plazo (ISTFT) en la red, logrando la velocidad y la eficiencia de los parámetros. En este documento, introducimos una extensión a ISTFTNet, denominada Hiftnet, que incorpora un filtro de origen armónico-plus-ruido en el dominio de frecuencia de tiempo que utiliza una fuente sinusoidal de la frecuencia fundamental (F0) inferida a través de una red de estimación de F0 previamente entrenada para la velocidad de inferencia rápida. Las evaluaciones subjetivas en LJSpeech muestran que nuestro modelo supera significativamente a ISTFTNET y HIFI-GAN, logrando el rendimiento de nivel de verdad en tierra. Hiftnet también supera a BigVgan-Base en Libritts para altavoces invisibles y logra un rendimiento comparable a BigVgan, mientras que es cuatro veces más rápido con solo 1/6 de los parámetros. Nuestro trabajo establece un nuevo punto de referencia para el vocoding neuronal eficiente y de alta calidad, allanando el camino para aplicaciones en tiempo real que exigen una síntesis de voz de alta calidad.
Documento: https://arxiv.org/abs/2309.09493
Muestras de audio: https://hiftnet.github.io/
Consulte nuestro trabajo de TTS que usa Hiftnet como decodificador del habla para la síntesis del habla a nivel humano aquí: https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]Para el entrenamiento del modelo F0, consulte YL4579/PitchExtractor. Este repositorio incluye un modelo F0 previamente capacitado en Libritts. Aún así, es posible que desee capacitar a su propio modelo F0 para obtener el mejor rendimiento, particularmente para datos ruidosos o sin voz, ya que descubrimos que la precisión de la estimación de F0 es esencial para el rendimiento del vocoder.
Consulte la inferencia de cuaderno.ipynb para más detalles.
Puede descargar el modelo LJSPeech previamente capacitado aquí y el modelo de Libritts previamente capacitado aquí. Los modelos previamente capacitados contienen parámetros de los optimizadores y discriminadores que pueden usarse para ajustar.