Téléchargement WG WaveNet - Téléchargement du code source WG WaveNet

WG WaveNet

Code Source AI

1.0.0

Télécharger

WG-WAVENET: Synthèse de la parole haute fidélité en temps réel sans GPU

Po-chun hsu, hung-yi Lee

Dans notre article récent, nous proposons WG-Wavenet, un modèle de génération de forme d'onde rapide, léger et de haute qualité. WG-WAVENET est composé d'un modèle basé sur le débit compact et d'un post-filtre. Les deux composants sont formés conjointement en maximisant la probabilité des données d'entraînement et en optimisant les fonctions de perte sur les domaines de fréquence. Alors que nous concevons un modèle basé sur le flux qui est fortement compressé, le modèle proposé nécessite des ressources de calcul beaucoup moins par rapport aux autres modèles de génération de formes d'onde pendant la formation et le temps d'inférence; Même si le modèle est très comprimé, le post-filtre maintient la qualité de la forme d'onde générée. Notre implémentation Pytorch peut être formée en utilisant moins de 8 Go de mémoire GPU et génère des échantillons audio à un taux de plus de 5000 kHz sur un GPU NVIDIA 1080TI. De plus, même si vous synthétisant sur un CPU, nous montrons que la méthode proposée est capable de générer 44,1 kHz, la forme d'onde de la parole 1,2 fois plus rapide que le temps réel. Les expériences montrent également que la qualité de l'audio généré est comparable à celle d'autres méthodes.

Visitez le démontage des échantillons audio.

FAIRE

Libérez le modèle pré-entraîné.
Combinez avec Tacotron2.

Exigences

Python> = 3.5.2
torch> = 1.4.0
nombant
cavalier
saumure
bibliothèque
Tensorboardx

Prétraitement

Entraînement

Télécharger LJ Speech. Dans cet exemple, c'est dans data/
Pour la formation, exécutez la commande suivante.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >

Pour la formation à l'aide d'un modèle pré-entraîné, exécutez la commande suivante.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >

Pour utiliser Tensorboard (facultatif), exécutez la commande suivante.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs >

Inférence

Pour synthétiser les fichiers WAV, exécutez la commande suivante.

python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs >

Modèle pré-entraîné

Travail en cours.

Tts

Nous combinerons ce vocodeur avec Tacotron2. Plus d'informations et Colab Demo seront publiés ici.

Références

Glugure d'onde par Nvidia
Parallelwavegan par Kan-Bayashi

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-22
taille 13.71KB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
wgcf

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout