dctts2
1.0.0
这是“基于深度卷积网络的有效训练的文本到语音系统的实施” https://arxiv.org/abs/1710.08969
该代码基于以下实现
模型火车“ Text2Mel”和“ SSRN”分别通过trainmel.py&trainmag.py分别下载您需要下载https://keithito.com/lj-speech-dataset/可用的ljspeech数据集
您可以收听音频样本
可以在此处下载预训练的模型
首先,您必须准备数据集。如果要使用LJSpeech数据集,则可以使用以下命令。
$ wget http://data.keithito.com/data/speech/LJSpeech-1.0.tar.bz2
$ tar xvf LJSpeech-1.0.tar.bz2
$ python prepro.py
$ python trainmel.py
在培训期间,您可以查看输出(默认情况下每200个小匹配),它将批次中的前两个示例转储到mel0.png&mel1.png中,还可以通过a0.png&a1.png查看学习的注意力


$ python trainmag.py
在训练过程中,您可以通过mag0.png&mag1.png查看输出,该输出将学习的频谱图与Groung真相进行了比较。

综合新的寄件使用:
$ python synth.py --text "sentance to synthesize" --file output.wav
您可以通过运行来运行演示Web服务器进行TTS
$ python server.py
这使用烧瓶框架运行演示