tacotron2 tts GUI
[Windows] GUI Portable executable (CPU only)
GUI包裝器合成。允許僅通過可切換開關綜合CPU合成。便攜式EXE文件可用(僅在CPU上運行)。
還播放來自流元素的TTS捐贈警報。
| 主UI | 流元素集成 |
|---|---|
具有用戶友好的GUI的基於機器學習的文本。目標受眾包括抽水機或內容創建者尋找開源TTS程序。該軟件的目的是使Portable EXE中的TTS綜合離線(無編碼體驗,GPU/COLAB)。
可以在發布頁面或直接在此處找到便攜式可執行文件。從下面下載預驗證的Tacotron 2和Wavellow模型。
警告:便攜式可執行文件在CPU上運行,與在GPU上運行相比,它導致> 10倍速度降低。
Pytorch 1.0
python gui.py
通過在MEL頻譜圖預測上調節Waveet,對天然TT合成的Pytorch實現。
該實現包括分佈式和自動混合精度支持,並使用LJSpeech數據集。
分佈式和自動混合精度支持取決於NVIDIA的頂點和AMP。
使用我們已發表的Tacotron 2和Wavellow模型訪問我們的網站以獲取音頻樣本。

git clone https://github.com/NVIDIA/tacotron2.gitcd tacotron2git submodule init; git submodule updatesed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txtload_mel_from_disk=True in hparams.py和更新mel-spectragram路徑pip install -r requirements.txt python train.py --output_directory=outdir --log_directory=logdirtensorboard --logdir=outdir/logdir 使用預訓練的模型訓練可能會導致默認情況下更快地收斂,數據集依賴的文本嵌入層被忽略
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True jupyter notebook --ip=127.0.0.1 --port=31337NB執行MEL光譜圖與音頻合成時,請確保對Tacotron 2和MEL解釋器進行相同的MEL光譜圖表示。
波格綜合的速度比實時流量的生成網絡快速綜合語音綜合
NV-Wavenet的速度比實時磁帶快。
該實現使用以下存儲庫中的代碼:Keith Ito,Prem Seetharaman,如我們的代碼中所述。
我們的靈感來自Yamamoto Ryuchi的Tacotron Pytorch實施。
我們感謝Tacotron 2紙作者,特別是Jonathan Shen,Yuxuan Wang和Zongheng Yang。