Descarga TTS Tacotron Pytorch - TTS Tacotron Pytorch Código fuente de descarga

TTS Tacotron Pytorch

Código Fuente de IA

1.0.0

Descargar

Tacotrón

Una implementación de Pytorch de la red de síntesis de discurso Tacotron de Google.

Esta implementación también incluye la atención sensible a la ubicación y las características del token de parada de Tacotron 2.

Además, el modelo está capacitado en el conjunto de datos de discurso LJ, con un modelo capacitado proporcionado.

Las muestras de audio se pueden encontrar en el directorio de resultados.

Introducción

Esta implementación se basa en r9y9/tacotron_pytorch, las principales diferencias son:

Agrega atención sensible a la ubicación y el token de parada del papel Tacotron 2. Esto puede reducir en gran medida la cantidad de tiempo y los datos necesarios para capacitar a un modelo.
Elimine todas las dependencias de TensorFlow que usa R9Y9, ahora se ejecuta solo en Pytorch y Pytorch .
Agrega un módulo de pérdida y use la pérdida de L2 (MSE) en lugar de la pérdida de L1.
Agrega un módulo de cargador de datos.
Incorpora el script de preprocesamiento de datos de discurso LJ desde Keithito.
Código de factorización y optimización para una depuración más fácil y se extiende en la furtura.

Además, algunas diferencias con respecto al papel tacotrón original son:

Predecir r = 5 marcos consecutivos no superpuestos en cada paso decodificador en lugar de r = 2.
Alimente todos los marcos R al siguiente paso de entrada del decodificador en lugar de solo el último cuadro de los marcos R.
Escala la pérdida en espectrogramas lineales predichos para que las frecuencias más bajas que correspondan al habla humana (0 a 3000 Hz) pesan más.
No usó una máscara de pérdida en el aprendizaje de secuencia a secuencia, esto obliga al modelo a aprender cuándo detener la síntesis.
Desactive el sesgo para la unidad de convolución 1-dimensional en el módulo CBHG. Estos detalles de implementación ayudan a la convergencia del modelo.

La calidad de audio aún no es tan buena como la demostración de Google, pero con suerte mejorará eventualmente. ¡Las solicitudes de extracción son bienvenidas!

Comienzo rápido

Configuración

Clone This Repo: git clone [email protected]:andi611/Tacotron-Pytorch.git
CD en este repositorio: cd Tacotron-Pytorch

Instalación de dependencias

Instale Python 3.
Instale la última versión de Pytorch de acuerdo con su plataforma. Para un mejor rendimiento, instale con soporte de GPU (CUDA) si es viable. Este código funciona con Pytorch 0.4 y posterior.
Requisitos de instalación:
```
 pip3 install -r requirements.txt
```
Advertencia: debe instalar antorcha dependiendo de su plataforma. Aquí enumere la versión de Pytorch utilizada cuando se crea, este proyecto fue construido.

Capacitación

Descargue el conjunto de datos de discurso LJ.
- Discurso de LJ
Puede usar otros conjuntos de datos si los convierte en el formato correcto. Vea el entrenamiento_data.md para obtener más información.
Desempaqué el conjunto de datos en ~/Tacotron-Pytorch/data
Después de desempacar, su árbol debería verse así para el discurso LJ:
```
 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1
			 |- metadata.csv
			 |- wavs
```

Preprocese el conjunto de datos de discurso LJ y haga archivos meta listos para el modelo usando preprocess.py:

 python3 preprocess.py --mode make

Después del preprocesamiento, su árbol se verá así:

 |- Tacotron-Pytorch
	 |- data
		 |- LJSpeech-1.1 (The downloaded dataset)
			 |- metadata.csv
			 |- wavs
		 |- meta (generate by preprocessing)
			 |- meta_text.txt 
			 |- meta_mel_xxxxx.npy ...
			 |- meta_spec_xxxxx.npy ...
		 |- test_transcripts.txt (provided)

Entrena un modelo usando Train.py
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/
```
Restaurar la capacitación desde un punto de control anterior:
```
 python3 train.py --ckpt_dir ckpt/ --log_dir log/ --model_name 500000
```
Los hiperparámetros sintonizables se encuentran en config.py.
Puede ajustar estos parámetros y la configuración editando el archivo, se recomiendan los hiperparámetros predeterminados para el discurso LJ.
Monitorear con TensorBoard (opcional)
```
 tensorboard --logdir 'path to log_dir'
```
El entrenador arroja audio y alineaciones cada 2000 pasos por defecto. Puede encontrarlos en tacotron/ckpt/ .

Pruebas: Uso de un modelo previamente capacitado y prueba.py

Ejecute el entorno de prueba con modo interactivo :

 python3 test.py --interactive --plot --model_name 500000

Ejecute el algoritmo de prueba en un conjunto de transcripciones (los resultados se pueden encontrar en el resultado/500000 directorio):
```
 python3 test.py --plot --model_name 500000 --test_file_path ./data/test_transcripts.txt
```

Reconocimiento

Créditos a Ryuichi Yamamoto para una maravillosa implementación de Pytorch de Tacotron, en la que este trabajo se basa principalmente. Este trabajo también está inspirado en la implementación de Nvidia Tacotron 2 Pytorch.