Les progrès récents de la synthèse de la parole ont mis à profit les réseaux GAN comme Hifi-Gan et Bigvgan pour produire des formes d'ondes à haute fidélité à partir de spectrogrammes de MEL. Cependant, ces réseaux sont coûteux en calcul et lourds des paramètres. ISTFTNET aborde ces limitations en intégrant la transformée de Fourier à court terme inverse (ISTFT) en réseau, en réalisant à la fois la vitesse et l'efficacité des paramètres. Dans cet article, nous introduisons une extension à ISTFTNET, appelé HiftNet, qui intègre un filtre source harmonique plus-bruit dans le domaine de la fréquence temporelle qui utilise une source sinusoïdale de la fréquence fondamentale (F0) déduite via un réseau d'estimation F0 pré-formé pour une vitesse d'inférence rapide. Les évaluations subjectives sur LJSpeech montrent que notre modèle surpasse considérablement ISTFTNET et HIFI-GAN, atteignant les performances au niveau du sol. HiftNet surpasse également BigVgan-Base sur Libritts pour des haut-parleurs invisibles et obtient des performances comparables à BigVgan tout en étant quatre fois plus rapide avec seulement 1/6 des paramètres. Nos travaux établissent une nouvelle référence pour une vocodage neuronale efficace et de haute qualité, ouvrant la voie à des applications en temps réel qui exigent une synthèse de la parole de haute qualité.
Papier: https://arxiv.org/abs/2309.09493
Échantillons audio: https://hiftnet.github.io/
Consultez notre travail TTS qui utilise HiftNet comme décodeur de vocation pour la synthèse de la parole de niveau humain ici: https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]Pour la formation du modèle F0, veuillez vous référer à YL4579 / PitchExtractor. Ce dépôt comprend un modèle F0 pré-formé sur les Libritts. Pourtant, vous voudrez peut-être former votre propre modèle F0 pour les meilleures performances, en particulier pour les données bruyantes ou sans discours, car nous avons constaté que la précision d'estimation F0 est essentielle pour les performances de vocodeur.
Veuillez vous référer au cahier Inference.ipynb pour plus de détails.
Vous pouvez télécharger le modèle LJSpeech pré-formé ici et le modèle de Libritts pré-formé ici. Les modèles pré-formés contiennent des paramètres des optimisateurs et des discriminateurs qui peuvent être utilisés pour le réglage fin.