Robust_Fine_Grained_Prosody_Controlダウンロード - Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

AI ソースコード

1.0.0

ダウンロード

エンドツーエンドの音声合成の堅牢で微調整された韻律制御（波路付き）

エンドツーエンドの音声合成の堅牢で微調整された韻律制御のPytorchの実装（非公式）

この実装では、Librittsデータセットを使用します。

メモ

DEV BRANCH：Multispeakerを備えたTacotron2（スピーカーの埋め込み）。スピーカー情報はデコーダーモジュールによってのみ消費され、注意モジュールには（著者の意図として）表示されません。
Text_side Branch：テキスト側の韻律制御モデルの実装。
音声側の韻律制御と韻律の正規化は現在のバージョンでは実装されていませんが、上の枝の上にそれらを追加するだけです。

前提条件

nvidia gpu + cuda cudnn

設定

Librittsデータセットをダウンロードして抽出します
このレポンをクローンする： git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
このレポブにCD： cd Robust_Fine_Grained_Prosody_Control
サブモジュールを初期化： git submodule init; git submodule update
更新.wavパス： sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- または、 hparams.pyでload_mel_from_disk=Trueを設定し、melspectrogramパスを更新します
Pytorch 1.0をインストールします
頂点をインストールします
Python要件をインストールするか、Docker画像を作成します
- Python要件のインストール： pip install -r requirements.txt

トレーニング

python train.py --output_directory=outdir --log_directory=logdir
（オプション） tensorboard --logdir=outdir/logdir

事前に訓練されたモデルを使用したトレーニング

（TBD）

マルチGPU（分散）および自動混合精密トレーニング

現在の実装ではサポートされていません。

推論

シングルサンプル： python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
マルチサンプル： python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NBメルスペクトルグラムをオーディオ合成に実行するとき、タコトロン2とMELデコーダーが同じMELスペクトル表現でトレーニングされていることを確認してください。

引用

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}