e3 vits
1.0.0
github页面可用样本!!!
标题: E3-Vits:具有跨语言风格转移的情感端到端TT(纸链接)
摘要:由于以前的情绪TTS模型基于两阶段的管道或其他标签,因此它们的训练过程很复杂,需要高标签成本。为了解决这个问题,本文介绍了E3-Vits,这是一种端到端的情感TTS模型,可解决现有模型的局限性。 E3-Vits综合了多演讲者条件的高质量演讲,支持参考语音和基于文本描述的情感语音综合,并通过脱节数据集启用跨语言的情感转移。为了实施E3-VIT,我们提出了批处理样式的扰动,该样式的扰动生成了具有不成对情绪的音频样本,以提高跨语言的情感转移的质量。结果表明,E3-Vits在自然性,说话者和情感相似性和推理速度方面优于基线模型。