Unet TTS
1.0.0
电子邮件:[email protected]
我们提出的算法具有强大的扬声器和风格的转移功能,尤其是对杂物外情绪的极好模仿。
代码
COLAB笔记本
普通话结果
纸链接
单发语音克隆旨在通过从文本到语音(TTS)系统中综合的语音中的扬声器语音和语音风格来转换,在该系统中,只能使用目标语音录制的镜头。室外转移仍然是一项艰巨的任务,影响合成语音的准确性和相似性的一个重要方面是携带说话者或从有限参考文献中提取的样式线索的条件表示。在本文中,我们提出了一种名为UNET-TTS的新颖的单发语音克隆算法,该算法具有良好的概括能力,可用于看不见的扬声器和样式。基于跳过连接的U-NET结构,新模型可以从参考音频中有效地发现说话者级别和话语级的光谱特征细节,从而可以准确推断复杂的声学特征,并将说话风格模仿到合成语音中。根据对相似性的主观和客观评估,新模型在看不见的情感语料库上均优于说话者的嵌入者和无监督的样式建模(GST)方法。
