gmvae_tacotron下载gmvae_tacotron源代码下载

gmvae_tacotron

Ai源码

1.0.0

下载

GMVAE TACOTRON-2：

可控语音综合的层次生成建模的张力非官方实施

存储库结构：

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

上一个树显示了存储库的当前状态。

步骤（0） ：获取您的数据集，在这里我设置了ljspeech的示例。
步骤（1） ：预处理数据。这将为您提供training_data文件夹。
步骤（2） ：训练您的Tacotron型号。产生logs-tacotron文件夹。
步骤（3） ：合成/评估TACOTRON模型。给出tacotron_output文件夹。

要求

首先，您需要与TensorFlow v1.6一起安装Python 3.5。

接下来，您可以安装要求：

pip install -r要求.txt

别的：

pip3 install -r sumpliont.txt

数据集：

该存储库在LJSpeech数据集上进行了测试，该数据集具有将近24小时的单个女演员语音录音的标签。

预处理

在运行以下步骤之前，请确保您在Tacotron-2文件夹中

CD TACOTRON-2

然后可以开始使用预处理：

Python Preprocess.py

或者

python3预处理.py

可以使用-DATASET参数选择数据集。默认值为ljspeech 。

训练：

功能预测模型可以使用：

python train.py -model ='tacotron'

或者

python3 train.py -model ='tacotron'

合成

对于频谱图网络（TACOTRON），有三种类型的MEL频谱图合成：

评估（自定义句子的合成）。这是在拥有全端到端模型之后通常使用的。

python synthesize.py -model ='tacotron' - mode ='est

或者

python3 synthesize.py -model ='tacotron' - mode ='est

笔记：

该实现并未针对所有方案进行完整测试，而是通过参考音频工作的培训和合成。
尽管它仅在没有GTA的合成中测试，并且使用eval模式进行了测试。
After training 250k step with 32 batch size on LJSpeech, KL error settled down near to zero (around 0.001) still not get good style transfer and control, may be because this model trained on LJSpeech which is not quite expressive datasets and only have 24 hrs of data, it might be produce good result on expressive dataset like Blizzard 2013 voice dataset though author of the paper used 105 hrs of Blizzard Challenge 2013 dataset.
在我的测试中，到目前为止，我还没有得到更多的调整，因此我还没有得到一些好的调整，因此该实现很容易与wavenet和WaveRNN集成。
随意提出一些更改，甚至更好地提高PR。