Chinese FastSpeech2
1.0.0
基於標貝中文標準女聲數據繼續訓練,同時對原論文的FastSpeech2模型做了改進,引入了韻律表徵以及韻律預測模塊,使中文發音更生動且富有節奏
參考samples中生成的音頻
本項目主體架構為FastSpeech2+HifiGAN結構,另外在輸入階段引入了中文文本的韻律向量,因此共有三個模型:fastspeech_model、hifigan_model、prosody_model(網盤鏈接,提取碼:qgpi),下載後將模型文件放入指定的目錄下:
提供了兩種預測方式:1)python synthesize_all.py;2)http接口調用
本項目是出於個人興趣在語音合成方面做的一些嘗試,歡迎大家批評指正,多多交流!