Transformer Text To Speech
1.0.0
文本到語音(TTS)系統將普通語言文本轉換為語音;其他系統將像徵性的語言表示(例如語音轉錄到語音)。現在,隨著深度學習的最新發展,可以將文本轉換為可理解的聲音。為此,文本被饋送到編碼器型神經網絡中,以輸出MEL光譜圖。現在,該MEL光譜圖可用於使用“ Griffin-Lim算法”來生成音頻。但是,由於它無法產生類似人類的語音質量,因此使用了名為wavenet的另一種神經網,它被Mel-Spectrogram饋送,以產生音頻,即使人也無法區分。

*
該模型接受了WMT-2014英語 - 德國數據集的一部分培訓。在訓練模型之前,進行了預處理。
數據集:https://keithito.com/lj-speech-dataset/