Cross Speaker Emotion Transfer下載 - Cross Speaker Emotion Transfer源代碼下載

Cross Speaker Emotion Transfer

Ai源碼

v0.2.0

下載

跨言論 - 發言人轉移-Pytorch實施

基於揚聲器條件層歸一化和文本到語音中的半監督培訓，BOCTEDANCE的跨語言情緒轉移的實施。

音頻樣本

音頻樣本可在 /演示中找到。

Quickstart

數據集指的是以下文檔中的數據集的名稱，例如RAVDESS 。

依賴性

您可以使用

 pip3 install -r requirements.txt

另外，安裝FairSeq（官方文檔，GitHub）以利用LConvBlock 。請在此處檢查以解決安裝它的任何問題。請注意， Dockerfile是為Docker用戶提供的，但是您必須手動安裝Fairseq。

推理

您必須下載驗證的型號，並將它們放入output/ckpt/DATASET/ 。

要從參考音頻中提取軟性令牌，請運行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

或者，要從情感ID中使用硬情緒令牌，請運行

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

可以在preprocessed_data/DATASET/speakers.json上找到學習的揚聲器的字典，並且生成的話語將放在output/result/ 。

批次推理

也支持批次推理，嘗試

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

綜合preprocessed_data/DATASET/val.txt中的所有話語。請注意，在此模式下僅支持來自給定情緒ID的硬情緒令牌。

訓練

數據集

支持的數據集是

Ravdess：Ravdess的這一部分包含1440個文件：每位演員X 24演員= 1440。 Ravdess包含24個專業演員（12名女性，12名男性），在中立的北美呼吸器中發聲兩個詞彙匹配的陳述。言語情緒包括平靜，快樂，悲傷，憤怒，恐懼，驚喜和厭惡表情。每個表達在兩個級別的情緒強度（正常，強）下產生，並具有額外的中性表達。

您自己的語言和數據集可以在此處進行調整。

預處理

對於帶有外部揚聲器嵌入式的多揚聲器TT ，下載cacknn softmax+三胞胎預算的Philipperemy DeepSpeaker的揚聲器嵌入模型，並將其定位在./deepspeaker/pretrained_models/中。
跑步
```
 python3 prepare_align.py --dataset DATASET
```
用於一些準備工作。
對於強制對準，蒙特利爾強制對準器（MFA）用於獲得發音和音素序列之間的比對。此處提供了數據集的預提取對齊。您必須在preprocessed_data/DATASET/TextGrid/中解壓縮文件。或者，您可以自己運行對準器。
之後，通過
```
 python3 preprocess.py --dataset DATASET
```

訓練

培訓您的模型

 python3 train.py --dataset DATASET

有用的選項：

要使用自動混合精度，請將--use_amp參數附加到上述命令中。
培訓師假定單節點多GPU培訓。要使用特定的GPU，請在上述命令的開頭指定CUDA_VISIBLE_DEVICES=<GPU_IDs> 。

張板

使用

 tensorboard --logdir output/log

在您的本地主機上提供張板。顯示了損耗曲線，合成的MEL光譜圖和音頻。

筆記

由於數據集尺寸較小，因此當前的實現未以半監督的方式進行訓練。但是，可以通過指定目標揚聲器並通過沒有情感分類器損失的情緒ID來輕鬆激活它。
在解碼器中，由於內存問題，使用15 x 1 LCONV塊而不是17 x 1。
嵌入多演講者TTS設置的兩個選項：從頭開始培訓揚聲器嵌入器或使用預先訓練的Philipperemy的DeepSpeaker模型（如Styler所做的那樣）。您可以通過設置配置（在'none'和'DeepSpeaker'之間）進行切換。
Ravdess數據集中的深言顯示了說話者之間的明確身份。下圖顯示了提取的揚聲器嵌入的T-SNE圖。