¡Las muestras están disponibles en las páginas de GitHub!
Título: E3-VITS: TTS emocional de extremo a extremo con transferencia de estilo a través de un biseo (enlace de papel)
Resumen: Dado que los modelos TTS emocionales anteriores se basan en una tubería de dos etapas o etiquetas adicionales, su proceso de entrenamiento es complejo y requiere un alto costo de etiquetado. Para lidiar con este problema, este documento presenta E3-VITS, un modelo TTS emocional de extremo a extremo que aborda las limitaciones de los modelos existentes. E3-VITS sintetiza los discursos de alta calidad para las condiciones de múltiples altavoces, admite tanto el habla de referencia como la síntesis de habla emocional basada en la descripción textual, y permite la transferencia de emociones de los recompensas con un conjunto de datos disjuntos. Para implementar E3-VIT, proponemos la perturbación de estilo perpetuos por lotes, que genera muestras de audio con emoción no apareada para aumentar la calidad de la transferencia de emociones de los biseas. Los resultados muestran que E3-VIT supera al modelo de referencia en términos de naturalidad, similitud de altavoz y emoción, y velocidad de inferencia.