MSMC TTS
1.0.0
論文のMSMC-TTSシステムの公式実装
最新のMSMC-TTS(MSMC-TTS-V2)は、MSMC-VQ-VAEとHifiganを組み合わせたMSMC-VQ-GANベースの自動エンコーダーで最適化されています。マルチステージ予測子は、TTS合成のMSMCRを予測するための音響モデルとしてまだ適用されます。 
[2024.04.10](進行中)QS-TTSの実装は、Examples/CSMSC/Configsで入手できます
[2022.10.20] MSMC-VQ-GANに基づいて、MSMC-TTS(MSMC-TTS-V2)の最新バージョンをリリースします。コンパクトな表現を学習することにより、低リソース言語の高品質のニューラルTTSに向けて、最新の論文を参照してください。
[2022.10.18]このレポでMSMC-TTSのすべてのバージョンのコードをリリースします。そして、この作品に興味のある人なら誰でも、音声統合のためのより有用な音声表現を探求するために参加できます。
[2022.9.22]「高性能ニューラルTTSに対するマルチステージマルチコードブックVQ-VAEアプローチ」は、Speech 2022で公開されています。
# Install
pip -r requirements.txt
# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml
# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml
# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis
# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts
モデルをよりよく訓練するのに役立ちます!
@inproceedings{guo2022msmc,
title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
booktitle={Proc. INTERSPEECH},
year={2022}
}