这是一个结合了Tacotron2模型和Vocoder模型(Griffinlim,Wavenet,Melgan)来实施韩国TTS的项目。
基于
https://github.com/tensorspeech/tensorflowtts
https://github.com/hccho2/tacotron2-korean-tts
https://carpedm20.github.io/tacotron/
《古兰经单扬声器》演讲
演员Yoo Inna的声音
宠物宠物教练康亨-Wook声音
对学习进行的音频数据没有与版权问题共享。请检查每个数据源。
KSS:https://www.kaggle.com/bryanpark/korean-le-speaker-spech-dataset
KBS广播:http://program.kbs.co.kr/2fm/radio/uvolum/pc/index.html
将WAV文件转换为numpy文件
“音频”,“梅尔”,“线性”,“文本”,等。
data/kss/"语音文件名.npz创建
MEL光谱图,线性光谱图正确答案集
共有四个学习。
TACOTRON2 + Griffinlim +单身扬声器
tacotron2 + griffinlim + MultiSpeaker(Deep Voice 2)
tacotron2 +梅尔根 +单扬声器
TACOTRON2 + Melgan + MultiSpeaker(转移学习)
TACOTRON2 + Griffinlim + MultiSpeaker(KSS + Yoo Inna)KSS数据

TACOTRON2 + GRIFFINLIM + MULTISPEAKER(-na中的KSS + YOO)

TACOTRON2 + Melgan +单身座谈会(KSS)
