Descargar tacotron2 tts GUI - Descargar el código fuente de tacotron2 tts GUI

tacotron2 tts GUI

Código Fuente de IA

[Windows] GUI Portable executable (CPU only)

Descargar

Trabajo de GUI en progreso (Actualización 4 de agosto de 2020)

Envoltura de GUI para sintetizar. Permite la síntesis de solo CPU a través de un interruptor toglable. El archivo EXE portátil está disponible (que se ejecuta solo en CPU).

También reproduce alertas de donaciones de TTS de los elementos de transmisión.

PRINCIPAL UI	Integración de elementos de flujo

Descripción general

Un programa de texto a voz de texto a voz con una GUI amigable para el usuario. El público objetivo incluye streamers o creadores de contenido que buscan un programa TTS de código abierto. El objetivo de este software es hacer que la síntesis de TTS sea accesible fuera de línea (sin experiencia de codificación, GPU/Colab) en un EXE portátil.

Características

Lee donaciones de elementos de transmisión automáticamente
Envoltura pyqt5 para nvidia /tacotron2 & /glow

Enlace de descarga

Se puede encontrar un ejecutable portátil en la página de versiones, o directamente aquí. Descargue un modelo de Tacotron 2 y Glow de Wavlow antes de abajo.

ADVERTENCIA: El ejecutable portátil se ejecuta en CPU, lo que conduce a una desaceleración de velocidad> 10x en comparación con la ejecución en GPU.

Edificio de la fuente

Requisitos

Python> = 3.7
Librosa
numpy
Pyqt5 == 5.15.0
solicitudes
TQDM
mate
bisagro
Num2words
pygame

Pytorch 1.0

Para correr

 python gui.py

Licencia

NVIDIA/TACOTRON2 & WABLOW: Licencia de cláusula BSD-3

Notas

Código TTS de NVIDIA/TACOTRON2
Código de GUI parcial de https://github.com/corentinj/real-time-voice-cloning y diseño inspirado en U/Realstreamer's Forsen TTS https://www.youtube.com/watch?v=kl2tglbcdco

Repo original:

Tacotrón 2 (sin Wavenet)

Implementación de Pytorch de la síntesis de TTS natural mediante el acondicionamiento del wavenet en las predicciones del espectrograma MEL.

Esta implementación incluye soporte de precisión mixto distribuido y automático y utiliza el conjunto de datos LJSPEECH.

El soporte de precisión mixto distribuido y automático se basa en el APEX y AMP de NVIDIA.

Visite nuestro sitio web para ver muestras de audio utilizando nuestros modelos Tacotron 2 y Wavlow publicados.

Alineación, espectrograma MEL predicho, espectrograma MEL objetivo

Requisitos previos

NVIDIA GPU + CUDA CUDNN

Configuración

Descargue y extraiga el conjunto de datos de discurso LJ
Clone Este repositorio: git clone https://github.com/NVIDIA/tacotron2.git
CD en este repositorio: cd tacotron2
Inicializar submódulo: git submodule init; git submodule update
Actualizar .WAV Ruts: sed -i -- 's,DUMMY,ljs_dataset_folder/wavs,g' filelists/*.txt
- Alternativamente, establezca load_mel_from_disk=True en hparams.py y actualice las rutas de espectrograma MEL
Instale Pytorch 1.0
Instalar APEX
Instale los requisitos de Python o la imagen de compilación de Docker
- Instalar requisitos de Python: pip install -r requirements.txt

Capacitación

python train.py --output_directory=outdir --log_directory=logdir
(Opcional) tensorboard --logdir=outdir/logdir

Entrenamiento utilizando un modelo previamente capacitado

La capacitación que usa un modelo previamente capacitado puede conducir a una convergencia más rápida de forma predeterminada, se ignoran las capas de incrustación de texto dependientes del conjunto de datos

Descargue nuestro modelo Tacotron 2 publicado
python train.py --output_directory=outdir --log_directory=logdir -c tacotron2_statedict.pt --warm_start

Entrenamiento multi-GPU (distribuido) y de precisión mixta automática

python -m multiproc train.py --output_directory=outdir --log_directory=logdir --hparams=distributed_run=True,fp16_run=True

Demostración de inferencia

Descargue nuestro modelo Tacotron 2 publicado
Descargue nuestro modelo de Glow Publicado
jupyter notebook --ip=127.0.0.1 --port=31337
Inferencia de carga.ipynb

NB Al realizar el espectrograma MEL a la síntesis de audio, asegúrese de que el tacotrón 2 y el decodificador MEL estuvieran entrenados en la misma representación del espectrograma MEL.