MSMC TTSダウンロード-MSMC MSMC TTSソースコードのダウンロード

MSMC TTS

AI ソースコード

1.0.0

ダウンロード

MSMC-TTS：マルチステージマルチコードブックTTS

論文のMSMC-TTSシステムの公式実装

高性能ニューラルTTSに対するマルチステージマルチコードブックVQ-VAEアプローチ
コンパクトな表現を学習することにより、低リソース言語の高品質のニューラルTTSに向けて
QS-TTS：ベクトル定量化された自己監視音声表現学習を介した半監視テキストからスピーチの合成に向けて

最新のMSMC-TTS（MSMC-TTS-V2）は、MSMC-VQ-VAEとHifiganを組み合わせたMSMC-VQ-GANベースの自動エンコーダーで最適化されています。マルチステージ予測子は、TTS合成のMSMCRを予測するための音響モデルとしてまだ適用されます。アバター

ニュース

[2024.04.10]（進行中）QS-TTSの実装は、Examples/CSMSC/Configsで入手できます

[2022.10.20] MSMC-VQ-GANに基づいて、MSMC-TTS（MSMC-TTS-V2）の最新バージョンをリリースします。コンパクトな表現を学習することにより、低リソース言語の高品質のニューラルTTSに向けて、最新の論文を参照してください。

[2022.10.18]このレポでMSMC-TTSのすべてのバージョンのコードをリリースします。そして、この作品に興味のある人なら誰でも、音声統合のためのより有用な音声表現を探求するために参加できます。

[2022.9.22]「高性能ニューラルTTSに対するマルチステージマルチコードブックVQ-VAEアプローチ」は、Speech 2022で公開されています。

使用法

 # Install
pip -r requirements.txt

# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis

# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts

ヒント

モデルをよりよく訓練するのに役立ちます！

MSMC-VQ-GAN

表現のコンパクトさに注意してください。単一スピーカーの標準TTSの場合、2〜4頭のヘッドを試すことができます。各ヘッドには64〜256コードワードがあります。
バッチサイズが小さすぎる場合は、より少ないコードワードを使用してください。そうしないと、ダイナミックコードブックの更新をサポートするにはバッチのフレームサイズが不十分です。
MSMC-VQ-GANのいくつかの段階が何も学習しないことがわかった場合、エンコーダー損失の重みを変更することができます。

マルチステージ予測子

トリプレットの損失は、TTSの表現力を改善する可能性がありますが、滑らかさを分解する可能性もあります。最もバランスの取れたパフォーマンスを見つけるために、0、0.01、0.1、1などのトリプレット損失のさまざまな重みを試すことができます。
低リソースのデータセットについては、より小さなモデルを使用して過剰にフィットしないようにしてください。アーリーストップも便利なトリックです。

引用

@inproceedings{guo2022msmc,
  title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
  author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
  booktitle={Proc. INTERSPEECH},
  year={2022}
}