Descargar gmvae_tacotron - Descargar el código fuente gmvae

gmvae_tacotron

Código Fuente de IA

1.0.0

Descargar

Gmvae Tacotron-2:

Implementación no oficial de TensorFlow de modelado generativo jerárquico para síntesis de habla controlable

Estructura del repositorio:

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

El árbol anterior muestra el estado actual del repositorio.

Paso (0) : Obtenga su conjunto de datos, aquí he establecido los ejemplos de ljspeech .
Paso (1) : preprocese sus datos. Esto le dará la carpeta Training_Data .
Paso (2) : Entrena tu modelo Tacotron. Produce la carpeta logs-tacotron .
Paso (3) : sintetizar/evaluar el modelo de tacotrón. Da la carpeta Tacotron_output .

Requisitos

Primero, debe tener instalado Python 3.5 junto con TensorFlow V1.6.

A continuación, puede instalar los requisitos:

PIP install -r requisitos.txt

demás:

PIP3 Instalar -r requisitos.txt

Conjunto de datos:

Este repositorio se probó en el conjunto de datos LJSPeech, que tiene casi 24 horas de grabación de voz de actriz individual etiquetada.

Preprocesamiento

Antes de ejecutar los siguientes pasos, asegúrese de estar dentro de la carpeta Tacotron-2

CD Tacotron-2

El preprocesamiento se puede comenzar a usar:

Python Preprocess.py

o

python3 preprocess.py

El conjunto de datos se puede elegir utilizando el argumento --dataSet . El valor predeterminado es ljspeech .

Capacitación:

El modelo de predicción de características puede ser entrenado utilizando:

Python Train.py - -Model = 'Tacotron'

o

Python3 Train.py - -Model = 'Tacotron'

Síntesis

Hay tres tipos de síntesis de espectrogramas MEL para la red de predicción del espectrograma (Tacotron):

Evaluación (síntesis de oraciones personalizadas). Esto es lo que generalmente usaremos después de tener un modelo de extremo a extremo.

Python synthesize.py --model = 'tacotron' --mode = 'eval' --reference_audio = 'ref_1.wav'

o

python3 synthesize.py --model = 'tacotron' --mode = 'eval' --reference_audio = 'ref_1.wav'

Nota:

Esta implementación no probó completamente para todos los escenarios, sino capacitación y síntesis con el trabajo de audio de referencia.
Aunque solo se probó en sintetizar sin GTA y con modo eval .
Después de entrenar el paso de 250k con 32 tamaño por lotes en LJSpeech, el error de KL se estableció cerca de cero (alrededor de 0.001) todavía no obtiene una buena transferencia y control de estilo, puede deberse a que este modelo capacitado en LJSpeech, que no es un conjunto de datos expresivos y solo tiene 24 horas de datos, podría ser un buen resultado en el data Blizzard 2013 voice dataset expresivo como el dato de datos Blizzard 2013.
En mis pruebas, no tengo buenos resultados hasta ahora en el lado de la transferencia de estilo puede ser más ajustado, esta implementación se integró fácilmente con wavenet y WaveRNN .
Siéntase libre de sugerir algunos cambios o incluso mejor aumentar las relaciones públicas.

Modelo previo a la aparición y muestras:

HACER

Referencias y recursos:

Implementación original de Tacotron TensorFlow
Papel tacotrón original
Modelos basados en la atención para el reconocimiento de voz
Síntesis de TTS natural mediante acondicionamiento de wavenet en predicciones de Mel Spectograma
R9Y9/Tacotron-2
Yanggeng1995/Vae_tacotron

Trabajo en progreso

Expandir

Información adicional