Emballage GUI pour synthétiser. Permet la synthèse du processeur uniquement via un commutateur à basculement. Le fichier EXE portable est disponible (qui s'exécute uniquement sur CPU).
Joue également les alertes de dons TTS à partir d'éléments de flux.
| UI principal | Intégration des éléments de diffusion |
|---|---|
Un programme de texte à discours basé sur l'apprentissage automatique avec une interface graphique conviviale. Le public cible comprend des streamers Twitch ou des créateurs de contenu à la recherche d'un programme TTS open source. Le but de ce logiciel est de rendre la synthèse TTS accessible hors ligne (pas d'expérience de codage, GPU / Colab) dans un EXE portable.
Un exécutable portable peut être trouvé sur la page des versions, ou directement ici. Téléchargez un modèle Tacotron 2 et Glow Wave Pret. Ci-dessous.
AVERTISSEMENT: L'exécutable portable s'exécute sur CPU, ce qui conduit à un ralentissement> 10x de vitesse par rapport à son exécution sur GPU.
Pytorch 1.0
python gui.py
Implémentation de Pytorch de la synthèse naturelle de TTS par conditionnement des prédictions du wavenet sur le spectrogramme MEL.
Cette implémentation comprend une prise en charge de précision mixte distribuée et automatique et utilise l'ensemble de données LJSpeech.
Le support de précision mixte distribué et automatique repose sur l'apex et l'ampli de Nvidia.
Visitez notre site Web pour des échantillons audio en utilisant nos modèles publiés Tacotron 2 et Wave Glow.

git clone https://github.com/NVIDIA/tacotron2.gitcd tacotron2git submodule init; git submodule updatesed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txtload_mel_from_disk=True dans hparams.py et mettez à jour les chemins de spectrogramme MELpip install -r requirements.txt python train.py --output_directory=outdir --log_directory=logdirtensorboard --logdir=outdir/logdir La formation utilisant un modèle pré-formé peut conduire à une convergence plus rapide par défaut, les couches d'intégration de texte dépendantes de l'ensemble de données sont ignorées
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True jupyter notebook --ip=127.0.0.1 --port=31337NB Lors de l'exécution du spectrogramme de MEL à la synthèse audio, assurez-vous que le tacotron 2 et le décodeur MEL ont été formés sur la même représentation du spectrogramme MEL.
Glugon d'onde plus rapide que le réseau génératif basé sur le flux en temps réel pour la synthèse de la parole
NV-WAVENET plus vite que le wavenet en temps réel.
Cette implémentation utilise le code des références suivantes: Keith Ito, Prem Seetharaman comme décrit dans notre code.
Nous sommes inspirés par la mise en œuvre de Tacotron Pytorch de Ryuchi Yamamoto.
Nous sommes reconnaissants aux auteurs de Tacotron 2 Paper, en particulier Jonathan Shen, Yuxuan Wang et Zongheng Yang.