sane tts
1.0.0
作者: Hyunjae Cho,Wonbin Jung,Junhyeok Lee,Sang Hoon Woo @mindslab Inc.
摘要:在本文中,我們介紹了Sane-TTS,這是一種穩定且自然的端到端多語言TTS模型。由於很難為給定的演講者獲得多語言語料庫,因此不可避免地會使用單語言語料庫進行多語言TTS模型。我們介紹了揚聲器正規化損失,該損失可改善跨語性合成期間的語音自然性以及域對抗訓練,該訓練適用於其他多語言TTS模型。此外,通過添加揚聲器正規化損失,以持續時間為零矢量嵌入的揚聲器可以穩定跨語性推斷。通過此替代品,我們的模型將以中等節奏的方式產生語音,而不論跨語性合成中的來源說話者。在MOS評估中,Sane-TTS在跨語義和內部合成中的自然性得分高於3.80,地面真相評分為3.99。此外,即使在跨語性的推論中,理智TTS也保持著接近地面真理的說話者相似性。音頻樣本可在我們的網頁上找到。
| 培訓程序 | 推理過程 |
|---|---|
![]() | ![]() |