Proben sind auf Github -Seiten erhältlich !!!
Titel: E3-Vits: emotionale End-to-End-TTs mit Cross-Speaker-Stiltransfer (Papierverbindung)
Zusammenfassung: Da frühere emotionale TTS-Modelle auf einer zweistufigen Pipeline oder zusätzlichen Etiketten basieren, ist ihr Trainingsprozess komplex und erfordert eine hohe Kennzeichnung. Um dieses Problem zu lösen, präsentiert dieses Papier E3-Vits, ein End-to-End-emotionales TTS-Modell, das die Grenzen bestehender Modelle angeht. E3-INs synthetisiert hochwertige Reden für Bedingungen mit mehreren Sprechern, unterstützt sowohl Referenzsprach- als auch textbeschreibungsbasierte emotionale Sprachsynthese und ermöglicht die Übertragung des Cross-Sprechers mit einem disjunkten Datensatz. Zur Implementierung von E3-Anpassungen schlagen wir eine Störung des Batch-Permut-Stils vor, die Audioproben mit ungepaarten Emotionen erzeugen, um die Qualität des Cross-Speaker-Emotionsübertragers zu erhöhen. Die Ergebnisse zeigen, dass die E3-Stoffe das Basismodell in Bezug auf Natürlichkeit, Sprecher und Emotionsähnlichkeit und Inferenzgeschwindigkeit übertrafen.