Implemento oficial del sistema de documentos MSMC-TTS
El último MSMC-TTS (MSMC-TTS-V2) está optimizado con un autoencoder basado en MSMC-VQ-Gan que combina MSMC-VQ-VAE y Hifigan. El predictor de múltiples etapas todavía se aplica como el modelo acústico para predecir MSMCR para la síntesis de TTS. 
[2024.04.10] (en progreso) La implementación de QS-TTS está disponible en ejemplos/csmsc/configs
[2022.10.20] Lanzamos la última versión de MSMC-TTS (MSMC-TTS-V2) basada en MSMC-VQ-Gan. Consulte nuestro último artículo "Hacia TTS neural de alta calidad para idiomas de baja recursos aprendiendo la representación compacta"
[2022.10.18] Lanzaremos el código de todas las versiones de MSMC-TTS en este repositorio. Y cualquier persona interesada en este trabajo es bienvenido a unirse a nosotros para explorar representaciones del habla más útiles para la síntesis del habla.
[2022.9.22] "Se publica un enfoque VQ-VA de múltiples códigos múltiples para TTS neural de alto rendimiento" en Interspeech 2022.
# Install
pip -r requirements.txt
# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml
# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml
# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis
# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts
¡Ayuda mejor a entrenar tus modelos!
@inproceedings{guo2022msmc,
title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
booktitle={Proc. INTERSPEECH},
year={2022}
}