Téléchargement de CoMoSpeech - téléchargement du code source CoMoSpeech

CoMoSpeech

Code Source AI

1.0.0

Télécharger

Comesseeche

Mise en œuvre de la comosangeeche. Pour tous les détails, consultez notre article accepté sur ACM MM 2023: Comospeech: discours en une étape et synthèse vocale chantant via un modèle de cohérence.

Auteurs : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.

Mise à jour

2024-04-26

Nous proposons FlashSpeech , un synthétiseur de parole efficace à tirs zéro basé sur le modèle de cohérence latente et la formation adversaire. (Papier).

2023-12-01

Nous proposons également une version bien conçue de conversion vocale de chant (SVC) basée sur le modèle de cohérence (code).

2023-11-30

Nous constatons que le bruit gaussien à moyen zéro au lieu du précédent dans les grad-TTS peut également atteindre des performances similaires. Nous publions ALSE le nouveau code et les points de contrôle.

2023-10-21

Nous ajoutons le support de la méthode du 2e ordre de Heun pour le modèle des enseignants (peut être utilisé pour l'échantillonnage du modèle des enseignants et une meilleure trajectoire ODE pour la distillation de cohérence).

Abstrait

Page de démonstration : lien.

Les modèles probabilistes de diffusion de débrail (DDPMS) ont montré des performances prometteuses pour la synthèse de la parole. Cependant, un grand nombre d'étapes itératives sont nécessaires pour atteindre une qualité d'échantillon élevée, ce qui restreint la vitesse d'inférence. Le maintien de la qualité de l'échantillon tout en augmentant la vitesse d'échantillonnage est devenu une tâche difficile. Dans cet article, nous proposons une méthode de synthèse de la parole basée sur la co nsistence mo del, la comosangeeche, qui atteint la synthèse de la parole par une seule étape d'échantillonnage de diffusion tout en atteignant une qualité audio élevée. La contrainte de cohérence est appliquée pour distiller un modèle de cohérence à partir d'un modèle d'enseignant basé sur la diffusion bien conçu, qui fournit finalement des performances supérieures dans la comesseeche distillée. Nos expériences montrent qu'en générant des enregistrements audio par une seule étape d'échantillonnage, la comosétaire atteint une vitesse d'inférence plus de 150 fois plus rapide que le temps réel sur un seul GPU NVIDIA A100, ce qui est comparable à FastSpeech2, ce qui rend la synthèse de la parole basée sur l'échantillonnage de diffusion vraiment pratique. Pendant ce temps, des évaluations objectives et subjectives sur la synthèse du texte vocale et la chanteuse montrent que les modèles de professeurs proposés donnent la meilleure qualité audio, et la comosangee basée sur l'échantillonnage en une étape atteint la meilleure vitesse d'inférence avec une qualité audio meilleure ou comparable à d'autres cotes de diffusion en plusieurs étapes conventionnelles.

Préparer

Build monotonic_align Code (Cython):

 cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..

Inférence

Exécuter le script inference.py en fournissant un chemin d'accès au fichier texte, chemin vers le point de contrôle, nombre d'échantillonnage:

    python inference.py -f < text file > -c < checkpoint > -t < sampling steps >

Consultez le dossier out pour des audios générés. Notez que dans le fichier params. Teacher = Vrai est pour notre modèle de professeur, False est pour notre comosangeeche. De plus, nous utilisons le même vocodeur dans Grad-TTS. Vous pouvez le télécharger et mettre dans le dossier Checkpts.

Entraînement

Nous utilisons des ensembles de données LJSPEECH et suivons la division Train / Test / Val dans FastSpeech2, vous pouvez modifier la division dans le dossier FS2_TXT. Puis exécutez le script train.py ,

    python train.py

Notez que dans le fichier params. Teacher = Vrai est pour notre modèle de professeur, False est pour notre comosangeeche. Pendant la formation de comosangeeche, le répertoire des points de contrôle des enseignants doit être fourni.

Les points de contrôle formés sur LJSpeech peuvent être téléchargés à partir d'ici.