tacotron2 tts GUI Télécharger - tacotron2 tts GUI Code source Télécharger

tacotron2 tts GUI

Code Source AI

[Windows] GUI Portable executable (CPU only)

Télécharger

GUI Travail en cours (mise à jour 4 août 2020)

Emballage GUI pour synthétiser. Permet la synthèse du processeur uniquement via un commutateur à basculement. Le fichier EXE portable est disponible (qui s'exécute uniquement sur CPU).

Joue également les alertes de dons TTS à partir d'éléments de flux.

UI principal	Intégration des éléments de diffusion

Aperçu

Un programme de texte à discours basé sur l'apprentissage automatique avec une interface graphique conviviale. Le public cible comprend des streamers Twitch ou des créateurs de contenu à la recherche d'un programme TTS open source. Le but de ce logiciel est de rendre la synthèse TTS accessible hors ligne (pas d'expérience de codage, GPU / Colab) dans un EXE portable.

Caractéristiques

Lit automatiquement les dons de Stream Elements
Pyqt5 Wrapper pour nvidia / tacotron2 & / wave glow

Lien de téléchargement

Un exécutable portable peut être trouvé sur la page des versions, ou directement ici. Téléchargez un modèle Tacotron 2 et Glow Wave Pret. Ci-dessous.

AVERTISSEMENT: L'exécutable portable s'exécute sur CPU, ce qui conduit à un ralentissement> 10x de vitesse par rapport à son exécution sur GPU.

Bâtiment de Source

Exigences

Python> = 3,7
bibliothèque
nombant
Pyqt5 == 5.15.0
demandes
tqdm
matplotlib
cavalier
Num2words
pygame

Pytorch 1.0

Courir

 python gui.py

Licence

Nvidia / Tacotron2 & Wave Glow: Licence de clause BSD-3

Notes

Code TTS de Nvidia / Tacotron2
Code de GUI partiel à partir de https://github.com/corentinj/real-time-voice-cloning et mise en page inspiré par U / Realstreamer Forsen Tts https://www.youtube.com/watch?v=kl2tglbcdco

Repo original:

Tacotron 2 (sans wavenet)

Implémentation de Pytorch de la synthèse naturelle de TTS par conditionnement des prédictions du wavenet sur le spectrogramme MEL.

Cette implémentation comprend une prise en charge de précision mixte distribuée et automatique et utilise l'ensemble de données LJSpeech.

Le support de précision mixte distribué et automatique repose sur l'apex et l'ampli de Nvidia.

Visitez notre site Web pour des échantillons audio en utilisant nos modèles publiés Tacotron 2 et Wave Glow.

Alignement, spectrogramme MEL prévu, spectrogramme MEL cible

Pré-requis

Nvidia gpu + cuda cudnn

Installation

Télécharger et extraire l'ensemble de données de discours LJ
Clone This Repo: git clone https://github.com/NVIDIA/tacotron2.git
CD dans ce dépôt: cd tacotron2
Initialiser le sous-module: git submodule init; git submodule update
Mise à jour .wav Paths: sed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txt
- Alternativement, définissez load_mel_from_disk=True dans hparams.py et mettez à jour les chemins de spectrogramme MEL
Installer Pytorch 1.0
Installer Apex
Installez les exigences Python ou construisez l'image docker
- Installer Python Exigences: pip install -r requirements.txt

Entraînement

python train.py --output_directory=outdir --log_directory=logdir
(Facultatif) tensorboard --logdir=outdir/logdir

Formation en utilisant un modèle pré-formé

La formation utilisant un modèle pré-formé peut conduire à une convergence plus rapide par défaut, les couches d'intégration de texte dépendantes de l'ensemble de données sont ignorées

Téléchargez notre modèle Tacotron 2 publié
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start

Multi-GPU (distribué) et une formation automatique de précision mixte

python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True

Démo en inférence

Téléchargez notre modèle Tacotron 2 publié
Téléchargez notre modèle de luminaire publié
jupyter notebook --ip=127.0.0.1 --port=31337
Charge inférence.Ipynb

NB Lors de l'exécution du spectrogramme de MEL à la synthèse audio, assurez-vous que le tacotron 2 et le décodeur MEL ont été formés sur la même représentation du spectrogramme MEL.

REPOS CONNEXES

Glugon d'onde plus rapide que le réseau génératif basé sur le flux en temps réel pour la synthèse de la parole

NV-WAVENET plus vite que le wavenet en temps réel.

Remerciements

Cette implémentation utilise le code des références suivantes: Keith Ito, Prem Seetharaman comme décrit dans notre code.

Nous sommes inspirés par la mise en œuvre de Tacotron Pytorch de Ryuchi Yamamoto.

Nous sommes reconnaissants aux auteurs de Tacotron 2 Paper, en particulier Jonathan Shen, Yuxuan Wang et Zongheng Yang.

Développer

Informations supplémentaires

Version [Windows] GUI Portable executable (CPU only)
Type Code Source AI
Date de mise à jour 2025-08-24
taille 1.13MB
Provenant de Github

Applications connexes

PPPwn Tinker GUI

2024-11-10
Anime batch downloader gui

2024-11-06
GitHub sgrebnov/cordova plugin background download

2024-11-05
Demucs Gui

2024-11-03
F5 TTS ComfyUI

2024-11-02
Informations en anglais sur le développement vocal (TTS User Guide Delphi version)

2009-05-28

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout