tf_multispeakerTTS_fc
1.0.0
這是從紙張驗證到多言揚聲器語音綜合,深層轉移和反饋約束的深層傳輸的紙張tts網絡的張量實現。該存儲庫還包含一個深揚聲器驗證模型,該模型在多演講者TTS模型中用作反饋網絡。合成樣品在線提供。
@inproceedings{Cai2020,
author={Zexin Cai and Chuxiong Zhang and Ming Li},
title={{From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint}},
year=2020,
booktitle={Proc. Interspeech 2020}
}


揚聲器驗證模型位於目錄deep_speaker中。默認情況下,使用Data Voxceleb 1和Voxceleb 2進行了揚聲器驗證模型。您可以在目錄中找到文件列表。超參數設置在vox12_hparams.py中。
要訓練揚聲器verificaiton模型從頭開始,請按文件列表中列出的數據進行準備並運行:
CUDA_VISIBLE_DEVICES=0 python train.py默認情況下,使用數據集VCTK對合成器進行了訓練。
使用process_audio.ipynb提取音頻功能
使用ipython筆記本deep_speaker/get_gvector.ipynb提取揚聲器嵌入
訓練基線多孔TTS系統
CUDA_VISIBLE_DEVICES=0 python synthesizer_train.py vctk datasets/vctk/synthesizer在訓練期間,請隨時使用Syn.ipynb評估和合成樣品
默認情況下,還使用DataSet VCTK對Vocoder進行了訓練。從上一節( TTS合成器)中提取聲學特徵後,這將很容易。為了獲得更好的性能,請使用合成器訓練完成後Vocoder_preprocess.py獲得的GTA MEL-SPECTROGRAM。
CUDA_VISIBLE_DEVICES=0 python vocoder_train.py -g --syn_dir datasets/vctk/synthesizer vctk datasets/vctk通過更改HPARAMS.PY中的相應鍵來設置兩個預驗證模型(揚聲器驗證模型和多座式合成器)的路徑。
訓練模型並隨時用反饋_syn.ipynb進行評估
CUDA_VISIBLE_DEVICES=0 python fc_synthesizer_train.py