Implementación oficial de Learn2sing 2.0. Para todos los detalles, consulte nuestro documento que es aceptado por InterSpeech 2022 a través de este enlace.
Autores : Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao BI.
Página de demostración : enlace.
Construir un corpus de canto de alta calidad para una persona que no sea buena para cantar no es trivial, lo que hace que sea difícil crear un sintetizador de voz de canto para esta persona. Learn2sing se dedica a sintetizar la voz de canto de un altavoz sin sus datos de canto aprendiendo de datos registrados por otros, es decir, el profesor de canto. Inspirado por el hecho de que Pitch es el factor de estilo clave para distinguir el canto de la voz hablante, el propuesto Learn2sing 2.0 genera primero la característica acústica preliminar con el valor de tono promedio en el nivel del teléfono, lo que permite el entrenamiento de este proceso para diferentes estilos, es decir, hablar o cantar, compartir las mismas condiciones, excepto la información del altavoz. Luego, condicionado al estilo específico, un decodificador de difusión, que se acelera por un algoritmo de muestreo rápido durante la etapa de inferencia, se adopta para restaurar gradualmente la característica acústica final. Durante la capacitación, para evitar la confusión de información de la incrustación del orador y la incrustación de estilo, se emplea información mutua para restringir el aprendizaje de la incrustación de los oradores y la incrustación de estilo. Los experimentos muestran que el enfoque propuesto es capaz de sintetizar la voz de canto de alta calidad para el altavoz objetivo sin cantar datos con 10 pasos de decodificación.
Reemplace el conjunto de teléfonos y el colapso en texto/símbolos.py con su propio conjunto
Proporcionar la ruta a los datos en config.json, la carpeta TestData contiene archivos de ejemplo para demostrar el formato
Capacitación
bash run.sh
Inferencia
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True