CDFSE_FastSpeech2ダウンロードCDFSE_FastSpeech2ソースコードのダウンロード

CDFSE_FastSpeech2

AI ソースコード

1.0.0

ダウンロード

cdfse_fastspeech2

このレポは、論文「Ming024/fastspeech2に基づいて実装されている「テキストからスピーチ合成におけるゼロショットスピーカーの適応のためのコンテンツ依存性のファイングレインスピーカーの埋め込み」というコードが含まれています（ありがとう！）。

2022-06-15アップデート：この作業は、スピーチ2022に受け入れられています。

サンプル|紙

使用法

0。データセット

マンダリン：aishell3
英語：Libritts

1。環境のセットアップ

pip3 install -r requirements.txt

2。データの前処理

詳細については、Ming024/fastspeech2を参照してください。

例えば、

最初の実行

python3 prepare_align.py config/AISHELL3/preprocess.yaml

次に、TextGridファイルをダウンロードするか、MFAを使用してコーパスを整列させ、PREPROCESSED_DATA/AISHELL3/TEXTGRID/のような[PREPROCESSED_DATA_PATH]にTextGridファイルを配置します。
最後に、プリプロセッシングスクリプトを実行します

python3 preprocess.py config/AISHELL3/preprocess.yaml

加えて：

Preprocessed_data/[dataset]/*で列車、VAL、およびテストセットを分割しました。したがって、データ処理後に[preprocessed_data_path]に直接配置したり、自分で再スプリットしたりできます。
preprocessed_data/[dataset]/*（dataset.pyで使用される参照スピーチに使用される）で「speakerfile_dict.json」を提供し、Generate_speakerfiledict.pyで生成できます。
Hifigan/Tretrained/ *でHifigan事前に処理されたパラメーターを提供しました。それらをロードするだけで（ *.zipファイルを解凍することを忘れないでください）、Utils/model.pyで自分のよく訓練されたボコーダーを使用します。

3。トレーニング

モデルをトレーニングします

python3 train.py -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

注意： PHNCLSの損失がトレンドダウンしていないように見えるか、目立たない場合は、テキスト/シンボルのシンボルディクトを手動で調整してみてください。

（オプション）テンソルボードを使用します

tensorboard --logdir output/log/AISHELL3

4。推論

バッチ用

python3 synthesize.py --source synbatch_chinese.txt --restore_step 250000 --mode batch -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml

シングル用

 # For Mandarin
python3 synthesize.py --text "清华大学人机语音交互实验室，聚焦人工智能场景下的智能语音交互技术研究。 " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/AISHELL3/preprocess.yaml -m config/AISHELL3/model.yaml -t config/AISHELL3/train.yaml 
# For English
python3 synthesize.py --text " Human Computer Speech Interaction Lab at Tsinghua University, targets artificial intelligence technologies for smart voice user interface. " --ref [REF_SPEECH_PATH.wav] --restore_step 250000 --mode single -p config/LibriTTS/preprocess.yaml -m config/LibriTTS/model.yaml -t config/LibriTTS/train.yaml

実装の更新

（2022-06-20）インスタンスの正規化がMELコンテンツエンコーダーに採用され、パフォーマンスが向上します。
（2022-06-01）サポート英語設定：Libritts Multi-Speaker Dataset（Train-Clean-100 + Dev-Clean + Test-Clean）。
（2022-04-27）シングルモードのメルスペクトルグラム数字ファイルの代わりに、Wavfile（*.wav）を参照音として直接サポートします。

参照

ming024/fastspeech2
jik876/hifi-gan

引用

 @misc{zhou2022content,
  title={Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis}, 
  author={Zhou, Yixuan and Song, Changhe and Li, Xiang and Zhang, Luwen and Wu, Zhiyong and Bian, Yanyao and Su, Dan and Meng, Helen},
  year={2022},
  eprint={2204.00990},
  archivePrefix={arXiv},
  primaryClass={eess.AS}
}

拡大する

追加情報