sane tts
1.0.0
作者: Hyunjae Cho,Wonbin Jung,Junhyeok Lee,Sang Hoon Woo @mindslab Inc.
摘要:在本文中,我们介绍了Sane-TTS,这是一种稳定且自然的端到端多语言TTS模型。由于很难为给定的演讲者获得多语言语料库,因此不可避免地会使用单语言语料库进行多语言TTS模型。我们介绍了扬声器正规化损失,该损失可改善跨语性合成期间的语音自然性以及域对抗训练,该训练适用于其他多语言TTS模型。此外,通过添加扬声器正规化损失,以持续时间为零矢量嵌入的扬声器可以稳定跨语性推断。通过此替代品,我们的模型将以中等节奏的方式产生语音,而不论跨语性合成中的来源说话者。在MOS评估中,Sane-TTS在跨语义和内部合成中的自然性得分高于3.80,地面真相评分为3.99。此外,即使在跨语性的推论中,理智TTS也保持着接近地面真理的说话者相似性。音频样本可在我们的网页上找到。
| 培训程序 | 推理过程 |
|---|---|
![]() | ![]() |