Transformer Text To Speech
1.0.0
文本到语音(TTS)系统将普通语言文本转换为语音;其他系统将象征性的语言表示(例如语音转录到语音)。现在,随着深度学习的最新发展,可以将文本转换为可理解的声音。为此,文本被馈送到编码器型神经网络中,以输出MEL光谱图。现在,该MEL光谱图可用于使用“ Griffin-Lim算法”来生成音频。但是,由于它无法产生类似人类的语音质量,因此使用了名为wavenet的另一种神经网,它被Mel-Spectrogram馈送,以产生音频,即使人也无法区分。

*
该模型接受了WMT-2014英语 - 德国数据集的一部分培训。在训练模型之前,进行了预处理。
数据集:https://keithito.com/lj-speech-dataset/