tacotron2 tts GUI Download - tacotron2 tts GUI Download do código fonte

tacotron2 tts GUI

Código-Fonte de IA

[Windows] GUI Portable executable (CPU only)

Baixar

GUI Trabalho em andamento (atualização 4 de agosto de 2020)

Wrapper GUI para sintetizar. Permite a síntese somente de CPU por meio de uma chave alternável. O arquivo EXE portátil está disponível (que é executado apenas na CPU).

Também toca alertas de doações TTS dos elementos do fluxo.

Ui principal	Integração de elementos de fluxo

Visão geral

Um programa de texto baseado em texto para aprendizado de máquina com uma GUI amigável. O público -alvo inclui serpentinas de Twitch ou criadores de conteúdo que procuram um programa TTS de código aberto. O objetivo deste software é tornar a síntese TTS acessível offline (sem experiência de codificação, GPU/COLAB) em um exe portátil.

Características

Lê doações de elementos de fluxo automaticamente
Wrapper Pyqt5 para NVIDIA /TACOTRON2 & /WANDGLOW

Baixar link

Um executável portátil pode ser encontrado na página de lançamentos, ou diretamente aqui. Faça o download de um modelo TACOTRON 2 e WAVEGLE PRESTRADO DE ABATO ABANTE.

Aviso: o executável portátil é executado na CPU, o que leva a uma desaceleração da velocidade> 10x em comparação com a execução na GPU.

Edifício da fonte

Requisitos

Python> = 3.7
Librosa
Numpy
Pyqt5 == 5.15.0
solicitações
TQDM
matplotlib
Scipy
Num2Words
pygame

Pytorch 1.0

Para correr

 python gui.py

Licença

NVIDIA/TACOTRON2 & WAVEGLOW: Licença de BSD-3-cláusula

Notas

Código TTS de NVIDIA/TACOTRON2
Código GUI parcial de https://github.com/corentinj/real-time-voice-coning e layout inspirado no Forsen tts https://www.youtube.com/watch?v=kl2tglbcdco

Repo original:

Tacotron 2 (sem wavenet)

Implementação de Pytorch da síntese natural de TTS, condicionando o WaveNet nas previsões do espectrograma MEL.

Esta implementação inclui suporte de precisão misto distribuído e automático e usa o conjunto de dados LJSpeech.

O suporte de precisão misto distribuído e automático depende do ápice e AMP da NVIDIA.

Visite nosso site para obter amostras de áudio usando nossos modelos publicados Tacotron 2 e Waveglow.

Alinhamento, espectrograma MEL previsto, espectrograma de alvo MEL

Pré-requisitos

Nvidia gpu + cuda cudnn

Configurar

Baixar e extrair o conjunto de dados de fala do LJ
Clone este repositório: git clone https://github.com/NVIDIA/tacotron2.git
CD neste repo: cd tacotron2
Inicialize o submódulo: git submodule init; git submodule update
ATUALIZAÇÃO .WAV PATHES: sed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txt
- Como alternativa, defina load_mel_from_disk=True em hparams.py e atualize os caminhos de espectrograma de mel
Instale o Pytorch 1.0
Instale o Apex
Instale requisitos do Python ou construa a imagem do Docker
- Instale os requisitos do Python: pip install -r requirements.txt

Treinamento

python train.py --output_directory=outdir --log_directory=logdir
(Opcional) tensorboard --logdir=outdir/logdir

Treinamento usando um modelo pré-treinado

O treinamento usando um modelo pré-treinado pode levar a uma convergência mais rápida por padrão, as camadas de incorporação de texto dependentes do conjunto de dados são ignoradas

Faça o download do nosso modelo publicado Tacotron 2
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start

Multi-GPU (distribuído) e treinamento automático de precisão mista

python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True

Demonstração de inferência

Faça o download do nosso modelo publicado Tacotron 2
Faça o download do nosso modelo publicado de Waveglow
jupyter notebook --ip=127.0.0.1 --port=31337
Carregar inferência.ipynb

NB Ao executar a síntese de espectro-espectro na síntese de áudio, verifique se o tacotron 2 e o decodificador MEL foram treinados na mesma representação de espectrograma MEL.