Implemento oficial do sistema de trabalhos MSMC-TTS
O mais recente MSMC-TTS (MSMC-TTS-V2) é otimizado com um autoencoder baseado em MSMC-VQ-GAN combinando MSMC-VQ-VAE e Hifigan. O preditor de vários estágios ainda é aplicado como modelo acústico para prever MSMCRs para a síntese de TTS. 
[2024.04.10] (em andamento) A implementação do QS-TTS está disponível em exemplos/csmc/configurações
[2022.10.20] Lançamos a versão mais recente do MSMC-TTS (MSMC-TTS-V2) com base no MSMC-VQ-GAN. Consulte o nosso último artigo "Para TTs neurais de alta qualidade para idiomas de baixo recurso, aprendendo representação compacta"
[2022.10.18] Vamos lançar o código de todas as versões do MSMC-TTS neste repo. E qualquer pessoa interessada neste trabalho pode se juntar a nós para explorar representações de fala mais úteis para a síntese de fala.
[2022.9.22] "Uma abordagem VQ-VQ-VAE de vários estágios para TTS neural de alto desempenho" é publicada no Interspeech 2022.
# Install
pip -r requirements.txt
# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml
# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml
# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis
# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts
Ajudá -lo melhor a treinar seus modelos!
@inproceedings{guo2022msmc,
title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
booktitle={Proc. INTERSPEECH},
year={2022}
}