gmvae_tacotron
1.0.0
可控语音综合的层次生成建模的张力非官方实施
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
上一个树显示了存储库的当前状态。
首先,您需要与TensorFlow v1.6一起安装Python 3.5。
接下来,您可以安装要求:
pip install -r要求.txt
别的:
pip3 install -r sumpliont.txt
该存储库在LJSpeech数据集上进行了测试,该数据集具有将近24小时的单个女演员语音录音的标签。
在运行以下步骤之前,请确保您在Tacotron-2文件夹中
CD TACOTRON-2
然后可以开始使用预处理:
Python Preprocess.py
或者
python3预处理.py
可以使用-DATASET参数选择数据集。默认值为ljspeech 。
功能预测模型可以使用:
python train.py -model ='tacotron'
或者
python3 train.py -model ='tacotron'
对于频谱图网络(TACOTRON),有三种类型的MEL频谱图合成:
python synthesize.py -model ='tacotron' - mode ='est
或者
python3 synthesize.py -model ='tacotron' - mode ='est
笔记:
eval模式进行了测试。Blizzard 2013 voice dataset though author of the paper used 105 hrs of Blizzard Challenge 2013 dataset.wavenet和WaveRNN集成。托多
正在进行中