Dans notre article récent, nous proposons WG-Wavenet, un modèle de génération de forme d'onde rapide, léger et de haute qualité. WG-WAVENET est composé d'un modèle basé sur le débit compact et d'un post-filtre. Les deux composants sont formés conjointement en maximisant la probabilité des données d'entraînement et en optimisant les fonctions de perte sur les domaines de fréquence. Alors que nous concevons un modèle basé sur le flux qui est fortement compressé, le modèle proposé nécessite des ressources de calcul beaucoup moins par rapport aux autres modèles de génération de formes d'onde pendant la formation et le temps d'inférence; Même si le modèle est très comprimé, le post-filtre maintient la qualité de la forme d'onde générée. Notre implémentation Pytorch peut être formée en utilisant moins de 8 Go de mémoire GPU et génère des échantillons audio à un taux de plus de 5000 kHz sur un GPU NVIDIA 1080TI. De plus, même si vous synthétisant sur un CPU, nous montrons que la méthode proposée est capable de générer 44,1 kHz, la forme d'onde de la parole 1,2 fois plus rapide que le temps réel. Les expériences montrent également que la qualité de l'audio généré est comparable à celle d'autres méthodes.
Visitez le démontage des échantillons audio.
Télécharger LJ Speech. Dans cet exemple, c'est dans data/
Pour la formation, exécutez la commande suivante.
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > Travail en cours.
Nous combinerons ce vocodeur avec Tacotron2. Plus d'informations et Colab Demo seront publiés ici.