Transformer TTS
1.0.0

pip install -r requirements.txt





您可以在下面檢查一些生成的樣本。所有樣本均以160K的速度步進,因此我認為該模型尚未融合。在長句子中,該模型似乎是較低的性能。
第一個圖是預測的MEL頻譜圖,第二個是地面真相。


hyperparams.py包含所有需要的超級參數。prepare_data.py預處理wav文件到MEL,線性光譜圖並保存它們以獲取更快的訓練時間。文本的預處理代碼在文本/目錄中。preprocess.py包括所有預處理代碼。module.py包含所有方法,包括注意力,Prenet,Postnet等。network.py包含網絡,包括編碼器,解碼器和後處理網絡。train_transformer.py用於培訓自迴旋的注意力網絡。 (文字 - > mel)train_postnet.py用於培訓後網絡。 (梅爾 - >線性)synthesis.py用於生成TTS樣品。 hyperparams.py中調整超參數,尤其是“ data_path”,這是您提取文件的目錄,以及如有必要的目錄。prepare_data.py 。train_transformer.py 。train_postnet.py 。 synthesis.py 。確保還原步驟。