vae_tacotron2
1.0.0
在端到端語音綜合中學習潛在表述的非官方實施潛在的表示
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
上一個樹顯示了存儲庫的當前狀態。
首先,您需要與TensorFlow v1.6一起安裝Python 3.5。
接下來,您可以安裝要求:
pip install -r要求.txt
別的:
pip3 install -r sumpliont.txt
該存儲庫在LJSpeech數據集上進行了測試,該數據集具有將近24小時的單個女演員語音錄音的標籤。
在運行以下步驟之前,請確保您在Tacotron-2文件夾中
CD TACOTRON-2
然後可以開始使用預處理:
Python Preprocess.py
或者
python3預處理.py
可以使用-DATASET參數選擇數據集。默認值為ljspeech 。
功能預測模型可以使用:
python train.py -model ='tacotron'
或者
python3 train.py -model ='tacotron'
對於頻譜圖網絡(TACOTRON),有三種類型的MEL頻譜圖合成:
python synthesize.py -model ='tacotron' - mode ='est
或者
python3 synthesize.py -model ='tacotron' - mode ='est
筆記:
eval模式進行了測試。Blizzard 2013 voice dataset數據集中可能會產生良好的效果。wavenet和WaveRNN集成。TODO從研究論文中索取樣本:http://home.ustc.edu.cn/~zyj008/icassp2019
正在進行中