vae_tacotron2
1.0.0
在端到端语音综合中学习潜在表述的非官方实施潜在的表示
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
上一个树显示了存储库的当前状态。
首先,您需要与TensorFlow v1.6一起安装Python 3.5。
接下来,您可以安装要求:
pip install -r要求.txt
别的:
pip3 install -r sumpliont.txt
该存储库在LJSpeech数据集上进行了测试,该数据集具有将近24小时的单个女演员语音录音的标签。
在运行以下步骤之前,请确保您在Tacotron-2文件夹中
CD TACOTRON-2
然后可以开始使用预处理:
Python Preprocess.py
或者
python3预处理.py
可以使用-DATASET参数选择数据集。默认值为ljspeech 。
功能预测模型可以使用:
python train.py -model ='tacotron'
或者
python3 train.py -model ='tacotron'
对于频谱图网络(TACOTRON),有三种类型的MEL频谱图合成:
python synthesize.py -model ='tacotron' - mode ='est
或者
python3 synthesize.py -model ='tacotron' - mode ='est
笔记:
eval模式进行了测试。Blizzard 2013 voice dataset数据集中可能会产生良好的效果。wavenet和WaveRNN集成。TODO从研究论文中索取样本:http://home.ustc.edu.cn/~zyj008/icassp2019
正在进行中