Wrapper GUI para sintetizar. Permite a síntese somente de CPU por meio de uma chave alternável. O arquivo EXE portátil está disponível (que é executado apenas na CPU).
Também toca alertas de doações TTS dos elementos do fluxo.
| Ui principal | Integração de elementos de fluxo |
|---|---|
Um programa de texto baseado em texto para aprendizado de máquina com uma GUI amigável. O público -alvo inclui serpentinas de Twitch ou criadores de conteúdo que procuram um programa TTS de código aberto. O objetivo deste software é tornar a síntese TTS acessível offline (sem experiência de codificação, GPU/COLAB) em um exe portátil.
Um executável portátil pode ser encontrado na página de lançamentos, ou diretamente aqui. Faça o download de um modelo TACOTRON 2 e WAVEGLE PRESTRADO DE ABATO ABANTE.
Aviso: o executável portátil é executado na CPU, o que leva a uma desaceleração da velocidade> 10x em comparação com a execução na GPU.
Pytorch 1.0
python gui.py
Implementação de Pytorch da síntese natural de TTS, condicionando o WaveNet nas previsões do espectrograma MEL.
Esta implementação inclui suporte de precisão misto distribuído e automático e usa o conjunto de dados LJSpeech.
O suporte de precisão misto distribuído e automático depende do ápice e AMP da NVIDIA.
Visite nosso site para obter amostras de áudio usando nossos modelos publicados Tacotron 2 e Waveglow.

git clone https://github.com/NVIDIA/tacotron2.gitcd tacotron2git submodule init; git submodule updatesed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txtload_mel_from_disk=True em hparams.py e atualize os caminhos de espectrograma de melpip install -r requirements.txt python train.py --output_directory=outdir --log_directory=logdirtensorboard --logdir=outdir/logdir O treinamento usando um modelo pré-treinado pode levar a uma convergência mais rápida por padrão, as camadas de incorporação de texto dependentes do conjunto de dados são ignoradas
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True jupyter notebook --ip=127.0.0.1 --port=31337NB Ao executar a síntese de espectro-espectro na síntese de áudio, verifique se o tacotron 2 e o decodificador MEL foram treinados na mesma representação de espectrograma MEL.
Waveglow mais rápido que a rede generativa baseada em fluxo em tempo real para síntese de fala
NV-WaveNet mais rápido que o Wavenet em tempo real.
Esta implementação usa o código dos seguintes repositórios: Keith Ito, Prem Seetharaman, conforme descrito em nosso código.
Somos inspirados na implementação do Tacotron Pytorch de Ryuchi Yamamoto.
Agradecemos aos autores do Tacotron 2 Paper, especialmente Jonathan Shen, Yuxuan Wang e Zongheng Yang.