Descargar HiFTNet - Descargar el código fuente de HiFTNet

HiFTNet

Código Fuente de IA

1.0.0

Descargar

Hiftnet: un vocoder neuronal de alta calidad rápido con filtro armónico-plus-ruido y cortocircuito inverso de Fourier Transform

Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani

Los avances recientes en la síntesis del habla han aprovechado las redes basadas en GaN como Hifi-Gan y BigVgan para producir formas de onda de alta fidelidad a partir de espectrogramas MEL. Sin embargo, estas redes son computacionalmente caras y pesadas de parámetros. ISTFTNet aborda estas limitaciones integrando la transformación inversa de Fourier a corto plazo (ISTFT) en la red, logrando la velocidad y la eficiencia de los parámetros. En este documento, introducimos una extensión a ISTFTNet, denominada Hiftnet, que incorpora un filtro de origen armónico-plus-ruido en el dominio de frecuencia de tiempo que utiliza una fuente sinusoidal de la frecuencia fundamental (F0) inferida a través de una red de estimación de F0 previamente entrenada para la velocidad de inferencia rápida. Las evaluaciones subjetivas en LJSpeech muestran que nuestro modelo supera significativamente a ISTFTNET y HIFI-GAN, logrando el rendimiento de nivel de verdad en tierra. Hiftnet también supera a BigVgan-Base en Libritts para altavoces invisibles y logra un rendimiento comparable a BigVgan, mientras que es cuatro veces más rápido con solo 1/6 de los parámetros. Nuestro trabajo establece un nuevo punto de referencia para el vocoding neuronal eficiente y de alta calidad, allanando el camino para aplicaciones en tiempo real que exigen una síntesis de voz de alta calidad.

Documento: https://arxiv.org/abs/2309.09493

Muestras de audio: https://hiftnet.github.io/

Consulte nuestro trabajo de TTS que usa Hiftnet como decodificador del habla para la síntesis del habla a nivel humano aquí: https://github.com/yl4579/styletts2

Requisitos previos

Python> = 3.7
Clon este repositorio:

git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNet

Instalar requisitos de Python:

pip install -r requirements.txt

Capacitación

python train.py --config config_v1.json --[args]

Para el entrenamiento del modelo F0, consulte YL4579/PitchExtractor. Este repositorio incluye un modelo F0 previamente capacitado en Libritts. Aún así, es posible que desee capacitar a su propio modelo F0 para obtener el mejor rendimiento, particularmente para datos ruidosos o sin voz, ya que descubrimos que la precisión de la estimación de F0 es esencial para el rendimiento del vocoder.

Inferencia

Consulte la inferencia de cuaderno.ipynb para más detalles.

Modelos previamente capacitados

Puede descargar el modelo LJSPeech previamente capacitado aquí y el modelo de Libritts previamente capacitado aquí. Los modelos previamente capacitados contienen parámetros de los optimizadores y discriminadores que pueden usarse para ajustar.