Esta es una implementación de TensorFlow de Deep Voice 3: 2000-beater text-to speech. Por ahora, nos estamos centrando en la síntesis de un solo altavoz.
El conjunto de datos de discurso LJ
Descargue y descomprima el conjunto de datos de discurso LJ. Correr:
python prepro.py
Nota: Asegúrese de que hayamos descomprimido el conjunto de datos en el mismo Foler de prepro.py .
Después de esto, obtendríamos tres nuevas carpetas:
├── dones [New]
├── mags [New]
├── mels [New]
├── metadata.csv
├── README
└── wavs
Los datos de entrenamiento se cargan desde ./LJSpeech-1.0/metadata.csv , ./LJSpeech-1.0/mels , ./LJSpeech-1.0/dones , ./LJSpeech-1.0/mags como predeterminado. Si queremos cambiar la ruta de carga, podríamos cambiar la configuración en class Hyperparams .
Para entrenar el modelo, usamos este comando:
python train.py
Actualmente, no podemos obtener buenos resultados. Sin embargo, todavía proporcionamos nuestro modelo previamente capacitado en caso de que alguien esté interesado en él.
Modelo previamente capacitado.
Su figura de atención es la siguiente:
Todas las cifras de atención generadas en la capacitación se incluyen en el archivo con cremallera modelo previamente capacitada.
La mayor parte del código se toma prestado de Kyubyong/DeepVoice3.