Téléchargement HiFTNet - Téléchargement du code source HiFTNet

HiFTNet

Code Source AI

1.0.0

Télécharger

Hiftnet: Un vocodeur neuronal rapide de haute qualité avec un filtre harmonique plus-bruit et une transformée de Fourier de courte durée inverse

Yinghao Aaron Li, Cong Han, Xilin Jiang, Nima Mesgarani

Les progrès récents de la synthèse de la parole ont mis à profit les réseaux GAN comme Hifi-Gan et Bigvgan pour produire des formes d'ondes à haute fidélité à partir de spectrogrammes de MEL. Cependant, ces réseaux sont coûteux en calcul et lourds des paramètres. ISTFTNET aborde ces limitations en intégrant la transformée de Fourier à court terme inverse (ISTFT) en réseau, en réalisant à la fois la vitesse et l'efficacité des paramètres. Dans cet article, nous introduisons une extension à ISTFTNET, appelé HiftNet, qui intègre un filtre source harmonique plus-bruit dans le domaine de la fréquence temporelle qui utilise une source sinusoïdale de la fréquence fondamentale (F0) déduite via un réseau d'estimation F0 pré-formé pour une vitesse d'inférence rapide. Les évaluations subjectives sur LJSpeech montrent que notre modèle surpasse considérablement ISTFTNET et HIFI-GAN, atteignant les performances au niveau du sol. HiftNet surpasse également BigVgan-Base sur Libritts pour des haut-parleurs invisibles et obtient des performances comparables à BigVgan tout en étant quatre fois plus rapide avec seulement 1/6 des paramètres. Nos travaux établissent une nouvelle référence pour une vocodage neuronale efficace et de haute qualité, ouvrant la voie à des applications en temps réel qui exigent une synthèse de la parole de haute qualité.

Papier: https://arxiv.org/abs/2309.09493

Échantillons audio: https://hiftnet.github.io/

Consultez notre travail TTS qui utilise HiftNet comme décodeur de vocation pour la synthèse de la parole de niveau humain ici: https://github.com/yl4579/styletts2

Pré-requis

Python> = 3,7
Cloner ce référentiel:

git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNet

Installez les exigences de Python:

pip install -r requirements.txt

Entraînement

python train.py --config config_v1.json --[args]

Pour la formation du modèle F0, veuillez vous référer à YL4579 / PitchExtractor. Ce dépôt comprend un modèle F0 pré-formé sur les Libritts. Pourtant, vous voudrez peut-être former votre propre modèle F0 pour les meilleures performances, en particulier pour les données bruyantes ou sans discours, car nous avons constaté que la précision d'estimation F0 est essentielle pour les performances de vocodeur.

Inférence

Veuillez vous référer au cahier Inference.ipynb pour plus de détails.

Modèles pré-formés

Vous pouvez télécharger le modèle LJSpeech pré-formé ici et le modèle de Libritts pré-formé ici. Les modèles pré-formés contiennent des paramètres des optimisateurs et des discriminateurs qui peuvent être utilisés pour le réglage fin.