e3 vits
1.0.0
github頁面可用樣本! ! !
標題: E3-Vits:具有跨語言風格轉移的情感端到端TT(紙鏈接)
摘要:由於以前的情緒TTS模型基於兩階段的管道或其他標籤,因此它們的訓練過程很複雜,需要高標籤成本。為了解決這個問題,本文介紹了E3-Vits,這是一種端到端的情感TTS模型,可解決現有模型的局限性。 E3-Vits綜合了多演講者條件的高質量演講,支持參考語音和基於文本描述的情感語音綜合,並通過脫節數據集啟用跨語言的情感轉移。為了實施E3-VIT,我們提出了批處理樣式的擾動,該樣式的擾動生成了具有不成對情緒的音頻樣本,以提高跨語言的情感轉移的質量。結果表明,E3-Vits在自然性,說話者和情感相似性和推理速度方面優於基線模型。