Descarga CoMoSpeech - Descargar el código fuente CoMoSpeech

CoMoSpeech

Código Fuente de IA

1.0.0

Descargar

Componimiento

Implementación del comerseato. Para todos los detalles, consulte nuestro artículo aceptado en ACM MM 2023: Comospeech: Síntesis de voz y voz de un solo paso a través del modelo de consistencia.

Autores : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.

Actualizar

2024-04-26

Proponemos FlashSpeech , un sintetizador de voz eficiente de disparo cero basado en el modelo de consistencia latente y el entrenamiento adversario. (Papel).

2023-12-01

También proponemos una versión de conversión de voz de canto bien diseñada (SVC) basada en el modelo de consistencia (código).

2023-11-30

Encontramos que el ruido gaussiano de cero medio en lugar del anterior en Grad-TTS también puede lograr un rendimiento similar. Alse lanzamos el nuevo código y los puntos de control.

2023-10-21

Agregamos el soporte de método de segundo orden de Heun para el modelo de maestro (se puede utilizar para el muestreo del modelo de maestro y una mejor trayectoria de ODE para la destilación de consistencia).

Abstracto

Página de demostración : enlace.

Los modelos probabilísticos de difusión de Denoising (DDPMS) han mostrado un rendimiento prometedor para la síntesis del habla. Sin embargo, se requiere una gran cantidad de pasos iterativos para lograr una alta calidad de muestra, lo que restringe la velocidad de inferencia. Mantener la calidad de la muestra mientras aumenta la velocidad de muestreo se ha convertido en una tarea desafiante. En este documento, proponemos un método de síntesis del habla basado en la participación de la mayoría, que logra la síntesis del habla a través de un solo paso de muestreo de difusión mientras alcanza una alta calidad de audio. La restricción de consistencia se aplica para destilar un modelo de consistencia de un modelo de maestro bien diseñado basado en difusión, que finalmente produce actuaciones superiores en el comerseato destilado. Nuestros experimentos muestran que al generar grabaciones de audio mediante un solo paso de muestreo, el comosquejo logra una velocidad de inferencia más de 150 veces más rápido que en tiempo real en una sola GPU NVIDIA A100, que es comparable a FastSpeech2, lo que hace que la síntesis del habla basada en muestras de difusión sea realmente práctica. Mientras tanto, las evaluaciones objetivas y subjetivas sobre el texto a la expresión y la síntesis de voz de canto muestran que los modelos de maestros propuestos producen la mejor calidad de audio de audio, y el comerseato basado en muestreo de un solo paso alcanza la mejor velocidad de inferencia con una calidad de audio mejor o comparable a otras bases de difusión convencionales de difusión de varios pasos.

Preparar

Construir código monotonic_align (Cython):

 cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..

Inferencia

Ejecute Script inference.py proporcionando ruta al archivo de texto, ruta al punto de control, número de muestreo:

    python inference.py -f < text file > -c < checkpoint > -t < sampling steps >

Echa un vistazo a la carpeta out para audios generados. Tenga en cuenta que en el archivo de parámetros. Maestro = verdadero es para nuestro modelo de maestro, el falso es para nuestro compeech. Además, usamos el mismo vocoder en Grad-TTS. Puede descargarlo y poner en la carpeta Checkpts.

Capacitación

Usamos conjuntos de datos LJSPEECch y seguimos el tren/prueba/Val dividido en FastSpeech2, puede cambiar la división en la carpeta FS2_TXT. Luego ejecute script train.py ,

    python train.py

Tenga en cuenta que en el archivo de parámetros. Maestro = verdadero es para nuestro modelo de maestro, el falso es para nuestro compeech. Mientras se capacita en compeech, se debe proporcionar un directorio de punto de control de maestros.

Los puntos de control capacitados en LJSpeech se pueden descargar desde aquí.