Mise en œuvre de la comosangeeche. Pour tous les détails, consultez notre article accepté sur ACM MM 2023: Comospeech: discours en une étape et synthèse vocale chantant via un modèle de cohérence.
Auteurs : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.
2024-04-26
2023-12-01
2023-11-30
2023-10-21
Page de démonstration : lien.
Les modèles probabilistes de diffusion de débrail (DDPMS) ont montré des performances prometteuses pour la synthèse de la parole. Cependant, un grand nombre d'étapes itératives sont nécessaires pour atteindre une qualité d'échantillon élevée, ce qui restreint la vitesse d'inférence. Le maintien de la qualité de l'échantillon tout en augmentant la vitesse d'échantillonnage est devenu une tâche difficile. Dans cet article, nous proposons une méthode de synthèse de la parole basée sur la co nsistence mo del, la comosangeeche, qui atteint la synthèse de la parole par une seule étape d'échantillonnage de diffusion tout en atteignant une qualité audio élevée. La contrainte de cohérence est appliquée pour distiller un modèle de cohérence à partir d'un modèle d'enseignant basé sur la diffusion bien conçu, qui fournit finalement des performances supérieures dans la comesseeche distillée. Nos expériences montrent qu'en générant des enregistrements audio par une seule étape d'échantillonnage, la comosétaire atteint une vitesse d'inférence plus de 150 fois plus rapide que le temps réel sur un seul GPU NVIDIA A100, ce qui est comparable à FastSpeech2, ce qui rend la synthèse de la parole basée sur l'échantillonnage de diffusion vraiment pratique. Pendant ce temps, des évaluations objectives et subjectives sur la synthèse du texte vocale et la chanteuse montrent que les modèles de professeurs proposés donnent la meilleure qualité audio, et la comosangee basée sur l'échantillonnage en une étape atteint la meilleure vitesse d'inférence avec une qualité audio meilleure ou comparable à d'autres cotes de diffusion en plusieurs étapes conventionnelles.
Build monotonic_align Code (Cython):
cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../.. Exécuter le script inference.py en fournissant un chemin d'accès au fichier texte, chemin vers le point de contrôle, nombre d'échantillonnage:
python inference.py -f < text file > -c < checkpoint > -t < sampling steps > Consultez le dossier out pour des audios générés. Notez que dans le fichier params. Teacher = Vrai est pour notre modèle de professeur, False est pour notre comosangeeche. De plus, nous utilisons le même vocodeur dans Grad-TTS. Vous pouvez le télécharger et mettre dans le dossier Checkpts.
Nous utilisons des ensembles de données LJSPEECH et suivons la division Train / Test / Val dans FastSpeech2, vous pouvez modifier la division dans le dossier FS2_TXT. Puis exécutez le script train.py ,
python train.py Notez que dans le fichier params. Teacher = Vrai est pour notre modèle de professeur, False est pour notre comosangeeche. Pendant la formation de comosangeeche, le répertoire des points de contrôle des enseignants doit être fourni.
Les points de contrôle formés sur LJSpeech peuvent être téléchargés à partir d'ici.
Je tiens à remercier tout particulièrement les auteurs de Grad-TTS, car notre base de code est principalement empruntée à Grad-TTS.
Vous êtes invités à envoyer des demandes de traction ou à partager quelques idées avec moi. Coordonnées: Zhen Ye ([email protected])