Cross Speaker Emotion Transferダウンロード - Cross Speaker Emotion Transferソースコードダウンロード

Cross Speaker Emotion Transfer

AI ソースコード

v0.2.0

ダウンロード

Cross-Speaker-Emotion-Transfer-Pytorchの実装

スピーカーの状態層の正規化とテキストへの半監視トレーニングに基づいたbytedanceのクロススピーカーの感情転送のPytorchの実装。

オーディオサンプル

オーディオサンプルは /デモで利用できます。

クイックスタート

データセットとは、次のドキュメントのRAVDESSなどのデータセットの名前を指します。

依存関係

Python依存関係をインストールできます

 pip3 install -r requirements.txt

また、FairSeq（公式文書、GitHub）をインストールして、 LConvBlockを利用します。インストールに関する問題を解決するには、こちらを確認してください。 Dockerfile Dockerユーザーに提供されていることに注意してください。ただし、FairSeqを手動でインストールする必要があります。

推論

事前に保護されたモデルをダウンロードして、それらをoutput/ckpt/DATASET/に配置する必要があります。

リファレンスオーディオからソフト感情トークンを抽出するには、実行する

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --ref_audio REF_AUDIO_PATH --restore_step RESTORE_STEP --mode single --dataset DATASET

または、感情IDからハード感情トークンを使用するには、実行する

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --emotion_id EMOTION_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

学習スピーカーの辞書はpreprocessed_data/DATASET/speakers.jsonで見つけることができ、生成された発話はoutput/result/に配置されます。

バッチ推論

バッチ推論もサポートされています

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

preprocessed_data/DATASET/val.txtのすべての発話を合成します。このモードでは、特定の感情IDからのハード感情トークンのみがサポートされていることに注意してください。

トレーニング

データセット

サポートされているデータセットは次のとおりです

Ravdess：Ravdessのこの部分には1440ファイルが含まれています。俳優ごとに60回の試行x 24俳優= 1440。ラベデスには24人のプロの俳優（12人の女性、12人の男性）が含まれており、中立の北米のアクセントで2つの字句に一致する声明を発声します。スピーチの感情には、落ち着いた、幸せ、悲しみ、怒り、恐ろしい、驚き、嫌悪感が含まれます。各式は、2つのレベルの感情的強度（正常、強い）で生成され、追加の中性発現があります。

ここでは、独自の言語とデータセットを採用できます。

前処理

外部スピーカーの封入器を備えたマルチスピーカーTTSについては、スピーカーの埋め込み用のPhilipperemyのディープスピーカーのRescnn SoftMax+Triplet Tretrained Modelをダウンロードし、それを./deepspeaker/pretrained_models/に見つけます。
走る
```
 python3 prepare_align.py --dataset DATASET
```
いくつかの準備のために。
強制アライメントのために、モントリオールの強制アライナー（MFA）を使用して、発話と音素シーケンスの間のアライメントを取得します。データセットの事前に抽出されたアライメントはここに記載されています。 preprocessed_data/DATASET/TextGrid/でファイルを解凍する必要があります。または、自分でアライナーを実行できます。
その後、前処理スクリプトを実行します
```
 python3 preprocess.py --dataset DATASET
```

トレーニング

モデルを訓練します

 python3 train.py --dataset DATASET

有用なオプション：

自動混合精度を使用するには、上記のコマンドに--use_amp引数を追加します。
トレーナーは、シングルノードマルチGPUトレーニングを想定しています。特定のGPUを使用するには、上記のコマンドの先頭にCUDA_VISIBLE_DEVICES=<GPU_IDs>を指定します。

テンソルボード

使用

 tensorboard --logdir output/log

LocalHostでTensorboardを提供します。損失曲線、合成されたメルスペクトルグラム、およびオーディオが表示されます。

メモ

現在の実装は、データセットのサイズが小さいため、半監視方法でトレーニングされていません。しかし、ターゲットスピーカーを指定し、感情分類器の損失なしで感情IDを渡さないことにより、簡単にアクティブ化できます。
デコーダーでは、メモリの問題により、17 x 1の代わりに15 x 1 LCONVブロックが使用されます。
マルチスピーカーTTS設定の埋め込みの2つのオプション：ゼロからスピーカーの埋め込みをトレーニングするか、事前に訓練されたPhilipperemyのDeepspeakerモデルを使用しています（Stylerが行ったように）。構成（ 'none'と'DeepSpeaker'の間）を設定して切り替えることができます。
Ravdess DatasetのDeepspeakerは、スピーカー間の明確な識別を示しています。次の図は、抽出されたスピーカー埋め込みのT-SNEプロットを示しています。