基於揚聲器條件層歸一化和文本到語音中的半監督培訓,BOCTEDANCE的跨語言情緒轉移的實施。

音頻樣本可在 /演示中找到。
數據集指的是以下文檔中的數據集的名稱,例如RAVDESS 。
您可以使用
pip3 install -r requirements.txt
另外,安裝FairSeq(官方文檔,GitHub)以利用LConvBlock 。請在此處檢查以解決安裝它的任何問題。請注意, Dockerfile是為Docker用戶提供的,但是您必須手動安裝Fairseq。
您必須下載驗證的型號,並將它們放入output/ckpt/DATASET/ 。
要從參考音頻中提取軟性令牌,請運行
python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET
或者,要從情感ID中使用硬情緒令牌,請運行
python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET
可以在preprocessed_data/DATASET/speakers.json上找到學習的揚聲器的字典,並且生成的話語將放在output/result/ 。
也支持批次推理,嘗試
python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET
綜合preprocessed_data/DATASET/val.txt中的所有話語。請注意,在此模式下僅支持來自給定情緒ID的硬情緒令牌。
支持的數據集是
您自己的語言和數據集可以在此處進行調整。
對於帶有外部揚聲器嵌入式的多揚聲器TT ,下載cacknn softmax+三胞胎預算的Philipperemy DeepSpeaker的揚聲器嵌入模型,並將其定位在./deepspeaker/pretrained_models/中。
跑步
python3 prepare_align.py --dataset DATASET
用於一些準備工作。
對於強制對準,蒙特利爾強制對準器(MFA)用於獲得發音和音素序列之間的比對。此處提供了數據集的預提取對齊。您必須在preprocessed_data/DATASET/TextGrid/中解壓縮文件。或者,您可以自己運行對準器。
之後,通過
python3 preprocess.py --dataset DATASET
培訓您的模型
python3 train.py --dataset DATASET
有用的選項:
--use_amp參數附加到上述命令中。CUDA_VISIBLE_DEVICES=<GPU_IDs> 。使用
tensorboard --logdir output/log
在您的本地主機上提供張板。顯示了損耗曲線,合成的MEL光譜圖和音頻。



'none'和'DeepSpeaker'之間)進行切換。
請用“引用此存儲庫”的“關於部分”(主頁的右上角)引用此存儲庫。