Téléchargement MSMC TTS - Téléchargement du code source MSMC TTS

MSMC TTS

Code Source AI

1.0.0

Télécharger

MSMC-TTS: TTS multi-étages

Mise en œuvre officielle du système de documents MSMC-TTS

Une approche VQ-Vae multi-codebook multi-étages des TTs neuronaux à haute performance
Vers les TT neuronaux de haute qualité pour les langues à faible ressource en apprenant une représentation compacte
QS-TTS: Vers la synthèse de texte vocale semi-supervisé via l'apprentissage de la parole auto-supervisée sur quantisée vectorielle

Le dernier MSMC-TTS (MSMC-TTS-V2) est optimisé avec un autoencoder basé sur MSMC-VQ-AG combinant MSMC-VQ-VAE et HIFIGAN. Le prédicteur en plusieurs étapes est toujours appliqué comme modèle acoustique pour prédire les MSMCR pour la synthèse TTS. avatar

Nouvelles

[2024.04.10] (en cours) L'implémentation de QS-TTS est disponible à des exemples / CSMSC / configs

[2022.10.20] Nous publions la dernière version de MSMC-TTS (MSMC-TTS-V2) basée sur MSMC-VQ-GAN. Veuillez vous référer à notre dernier article "vers les TT de haute qualité pour les langues à faible ressource en apprenant la représentation compacte"

[2022.10.18] Nous publierons le code de toutes les versions de MSMC-TTS dans ce dépôt. Et toute personne intéressée par ce travail est la bienvenue à nous rejoindre pour explorer des représentations de la parole plus utiles pour la synthèse de la parole.

[2022.9.22] "Une approche VQ-VAE multi-Codebook multi-étages des TTs neuronaux à haute performance" est publiée sur IntereSpeech 2022.

Usage

 # Install
pip -r requirements.txt

# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis

# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts

Conseils

Vous aider à mieux former vos modèles!

MSMC-VQ-GAN

Soyez prudent pour la compacité de votre représentation. Pour les TTS standard mono-haut-parleurs, vous pouvez essayer 2-4 têtes, que chaque tête peut avoir 64 à 256 mots de code.
Veuillez utiliser moins de mots de code si la taille de votre lot est trop petite, sinon la taille du trame d'un lot est insuffisante pour prendre en charge la mise à jour dynamique du livre de codes.
Vous pouvez modifier le poids de la perte de l'encodeur si vous constatez que certaines étapes de votre MSMC-VQ-GAN n'apprennent rien.

Prédicteur en plusieurs étapes

La perte de triplet peut améliorer l'expressivité des TTS, mais peut également dégrader la douceur. Vous pouvez essayer différents poids de perte de triplet, tels que 0, 0,01, 0,1, 1, pour trouver les performances les plus équilibrées.
Pour les ensembles de données à faibles ressources, veuillez utiliser des modèles plus petits pour éviter un sur-ajustement. Le début du début est également une astuce utile.

Citations

@inproceedings{guo2022msmc,
  title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
  author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
  booktitle={Proc. INTERSPEECH},
  year={2022}
}