Les échantillons sont disponibles dans les pages GitHub !!!
Titre: E3-Vits: TTS émotionnel de bout en bout avec transfert de style transversal (lien papier)
Résumé: Étant donné que les modèles TTS émotionnels précédents sont basés sur un pipeline en deux étapes ou des étiquettes supplémentaires, leur processus de formation est complexe et nécessite un coût d'étiquetage élevé. Pour faire face à ce problème, cet article présente E3-VITS, un modèle TTS émotionnel de bout en bout qui aborde les limites des modèles existants. E3-VITS synthétise des discours de haute qualité pour les conditions multi-orages, prend en charge la parole de référence et la synthèse de la parole émotionnelle basée sur la description textuelle et permet un transfert d'émotion croisé avec un ensemble de données disjoint. Pour implémenter E3-VITS, nous proposons une perturbation de style permuné par lots, qui génère des échantillons audio avec une émotion non appariée pour augmenter la qualité du transfert d'émotion croisé. Les résultats montrent que E3-VITS surpasse le modèle de base en termes de naturel, de similitude des haut-parleurs et des émotions et de la vitesse d'inférence.