Deepaudio-TTS es un marco para capacitar a los modelos de texto a voz (TTS) basados en redes neuronales. Inlcude o incluirá arquitecturas populares de redes neuronales para TTS y modelos de vocoder.
Para facilitar el uso de diversas funciones, como precisión mixta, entrenamiento de múltiples nodos y capacitación en TPU, etc., introduje la luz de pytorch y la hidra en este marco. Todavía está en desarrollo.
$ export PYTHONPATH="${PYTHONPATH}:/dir/of/this/project/"
$ python -m deepaudio.tts.cli.train experiment=tacotron2 datamodule.train_metadata=/you/path/to/train_metadata datamodule.dev_metadata=/you/path/to/dev_metadata
Es un proyecto personal. Así que no tengo suficientes recursos de GPU para hacer muchos experimentos. Este proyecto todavía está en desarrollo. Aprecio cualquier tipo de retroalimentación o contribución. No dude en hacer una extracción de requsest para algunos problemas pequeños como correcciones de errores, resultados del experimento. Si tiene alguna pregunta, abra un problema.
Tomé prestados muchos códigos de ESPNet y Paddle Speech