Chinese FastSpeech2
1.0.0
基于标贝中文标准女声数据继续训练,同时对原论文的FastSpeech2模型做了改进,引入了韵律表征以及韵律预测模块,使中文发音更生动且富有节奏
参考samples中生成的音频
本项目主体架构为FastSpeech2+HifiGAN结构,另外在输入阶段引入了中文文本的韵律向量,因此共有三个模型:fastspeech_model、hifigan_model、prosody_model(网盘链接,提取码:qgpi),下载后将模型文件放入指定的目录下:
提供了两种预测方式:1)python synthesize_all.py;2)http接口调用
本项目是出于个人兴趣在语音合成方面做的一些尝试,欢迎大家批评指正,多多交流!