dc_tts
1.0.0
我實施了另一個文本到語音模型DC-TTS,該模型基於有效的捲積網絡,在有效的捲積網絡中引入了具有指導性的注意力。但是,我的目標不只是複制論文。相反,我想了解有關各種聲音項目的見解。
tf.contrib.layers.layer_norm的API已更改)我在四個不同的語音數據集上培訓英語模型和韓國模型。
1。 LJ語音數據集
2。尼克·奧弗曼(Nick Offerman)的有聲讀物
3。凱特·溫斯萊特的有聲讀物
4。 KSS數據集
LJ語音數據集最近被廣泛用作TTS任務中的基準數據集,因為它已公開可用,並且具有24小時合理的質量樣本。尼克和凱特的有聲讀物還用於查看該模型是否可以通過更少的數據(可變語音樣本)學習。它們分別為18小時5小時。最後,KSS數據集是韓國單揚聲器語音數據集,持續超過12小時。
hyperparams.py中調整超級參數。 (如果您想進行預處理,請設置Prepro true`。python train.py 1用於培訓Text2Mel。 (如果設置prepro true,請首先運行python prepro.py)python train.py 2用於訓練SSRN。如果您擁有多個GPU卡,則可以同時執行步驟2和3。


我像原始論文一樣,根據哈佛句子來生成語音樣本。它已經包含在存儲庫中。
synthesize.py並檢查samples中的文件。 | 數據集 | 樣品 |
|---|---|
| LJ | 50k 200k 310k 800k |
| 缺口 | 40k 170k 300k 800k |
| 凱特 | 40k 160k 300k 800k |
| KSS | 400k |
下載此。