tf_multispeakerTTS_fcダウンロードtf_multispeakerTTS_fcソースコードダウンロード

tf_multispeakerTTS_fc

AI ソースコード

1.0.0

ダウンロード

スピーカーVerificAitonからのフィードバック制約を備えたマルチスピーカー音声合成

これは、スピーカーの検証からマルチスピーカーの音声合成まで、フィードバック制約を伴う深い転送まで、紙で導入されたマルチスピーカーTTSネットワークのターンフロー実装です。このリポジトリには、マルチスピーカーTTSモデルでフィードバックネットワークとして使用されるディープスピーカー検証モデルも含まれています。合成されたサンプルはオンラインで提供されます。

引用

 @inproceedings{Cai2020,
  author={Zexin Cai and Chuxiong Zhang and Ming Li},
  title={{From Speaker Verification to Multispeaker Speech Synthesis, Deep Transfer with Feedback Constraint}},
  year=2020,
  booktitle={Proc. Interspeech 2020}
}

モデルアーキテクチャ

スピーカーの埋め込みネットワークは、ResNetベースのネットワークです。

トレーニング

スピーカー検証モデル

スピーカー検証モデルは、ディレクトリdeep_speakerにあります。デフォルトでは、スピーカー検証モデルはデータVoxceleB 1およびVoxceleB 2でトレーニングされています。ディレクトリにファイルリストを見つけることができます。ハイパーパラメーターはvox12_hparams.pyで設定されています。

スピーカーVerificAitonモデルをゼロからトレーニングするには、ファイルリストに記載されているデータを準備して実行します。

CUDA_VISIBLE_DEVICES=0 python train.py

TTSシンセサイザー（フィードバック制御なし）

デフォルトでは、シンセサイザーはデータセットVCTKを使用してトレーニングされます。

process_audio.ipynbを使用してオーディオ機能を抽出します
IPythonノートブックを使用してスピーカーの埋め込みを抽出しますdeep_speaker/get_gvector.ipynb
ベースラインマルチスピーカーTTSシステムをトレーニングします
```
CUDA_VISIBLE_DEVICES=0 python synthesizer_train.py vctk datasets/vctk/synthesizer
```
トレーニング中にsyn.ipynbを使用してサンプルを評価して合成してください

ニューラルボコーダー（wavernn）

デフォルトでは、ボコーダーはデータセットVCTKを使用してトレーニングされます。前のセクション（ TTSシンセサイザー）から音響機能を抽出した後は簡単です。パフォーマンスを向上させるには、シンセサイザーのトレーニングが終了した後、VoCoder_Preprocess.pyによって取得されたGTA Mel-SpectRogramを使用してください。

CUDA_VISIBLE_DEVICES=0 python vocoder_train.py -g --syn_dir datasets/vctk/synthesizer vctk datasets/vctk

フィードバック制約を備えたTTSシンセサイザー

Hparams.pyの対応するキーを変更することにより、2つの前提条件モデル（スピーカー検証モデルとマルチスピーカーシンセサイザー）へのパスを設定します。
モデルをトレーニングし、feedback_syn.ipynbでいつでも評価します
```
CUDA_VISIBLE_DEVICES=0 python fc_synthesizer_train.py
```