Implementación del comerseato. Para todos los detalles, consulte nuestro artículo aceptado en ACM MM 2023: Comospeech: Síntesis de voz y voz de un solo paso a través del modelo de consistencia.
Autores : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.
2024-04-26
2023-12-01
2023-11-30
2023-10-21
Página de demostración : enlace.
Los modelos probabilísticos de difusión de Denoising (DDPMS) han mostrado un rendimiento prometedor para la síntesis del habla. Sin embargo, se requiere una gran cantidad de pasos iterativos para lograr una alta calidad de muestra, lo que restringe la velocidad de inferencia. Mantener la calidad de la muestra mientras aumenta la velocidad de muestreo se ha convertido en una tarea desafiante. En este documento, proponemos un método de síntesis del habla basado en la participación de la mayoría, que logra la síntesis del habla a través de un solo paso de muestreo de difusión mientras alcanza una alta calidad de audio. La restricción de consistencia se aplica para destilar un modelo de consistencia de un modelo de maestro bien diseñado basado en difusión, que finalmente produce actuaciones superiores en el comerseato destilado. Nuestros experimentos muestran que al generar grabaciones de audio mediante un solo paso de muestreo, el comosquejo logra una velocidad de inferencia más de 150 veces más rápido que en tiempo real en una sola GPU NVIDIA A100, que es comparable a FastSpeech2, lo que hace que la síntesis del habla basada en muestras de difusión sea realmente práctica. Mientras tanto, las evaluaciones objetivas y subjetivas sobre el texto a la expresión y la síntesis de voz de canto muestran que los modelos de maestros propuestos producen la mejor calidad de audio de audio, y el comerseato basado en muestreo de un solo paso alcanza la mejor velocidad de inferencia con una calidad de audio mejor o comparable a otras bases de difusión convencionales de difusión de varios pasos.
Construir código monotonic_align (Cython):
cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../.. Ejecute Script inference.py proporcionando ruta al archivo de texto, ruta al punto de control, número de muestreo:
python inference.py -f < text file > -c < checkpoint > -t < sampling steps > Echa un vistazo a la carpeta out para audios generados. Tenga en cuenta que en el archivo de parámetros. Maestro = verdadero es para nuestro modelo de maestro, el falso es para nuestro compeech. Además, usamos el mismo vocoder en Grad-TTS. Puede descargarlo y poner en la carpeta Checkpts.
Usamos conjuntos de datos LJSPEECch y seguimos el tren/prueba/Val dividido en FastSpeech2, puede cambiar la división en la carpeta FS2_TXT. Luego ejecute script train.py ,
python train.py Tenga en cuenta que en el archivo de parámetros. Maestro = verdadero es para nuestro modelo de maestro, el falso es para nuestro compeech. Mientras se capacita en compeech, se debe proporcionar un directorio de punto de control de maestros.
Los puntos de control capacitados en LJSpeech se pueden descargar desde aquí.
Me gustaría extender un agradecimiento especial a los autores de Grad-TTS, ya que nuestra base de código se prestó principalmente de Grad-TTS.
Puede enviar solicitudes de extracción o compartir algunas ideas conmigo. Información de contacto: Zhen Ye ([email protected])