Acoustic-FastSpeech2 (personalizado)
Rendimiento razonable mediante la utilización del aprendizaje de transferencia para personalización con pequeñas cantidades de datos
Proporcione API que se puedan crear con un ajuste fino en conjuntos de datos coreanos en tiempo real
Modificación del código del modelo según Fine-Tune
Preprocesos fáciles, tren, síntesis a través del script de shell
Proporcionar una imagen de Docker única
Coincide con el nombre del archivo de CKPT pre-capacitado de FastSpeech2 y Hifi-Gan y lo mantiene en cada modelo.
(FastSpeech2: 30,000 pasos de aprendizaje / HIFI -GAN -JUNGIL King Oficial -University -University -University)
Para el aprendizaje y la síntesis, cargamos y ejecutamos imágenes de Docker que contienen todos los paquetes dependientes.
docker pull hws0120/e2e_speech_synthesis
Run_fs2_processing.sh Los pasos están conectados a Docker con un comando Conda e instala el paquete Python Jamo.
conda activate aligner
pip install jamo
Fin del entorno virtual para realizar run_fs2_train o síntesis.
conda activate base
Si cumple con todos los elementos anteriores, ejecute el script de shell para extraer el MFA.
sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Crea con éxito un TextGrid para salir del entorno virtual y ejecutar el script de aprendizaje.
sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Cuando se completa el aprendizaje de 5000 pasos de FastSpeech2 5000, ejecute el script Hifi-Gan.
sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Cuando un modelo aprendido en la carpeta CKPT esté listo, ejecute un script para la síntesis.
sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Cada contenedor se establece en el proceso de aprendizaje y síntesis y en el proceso como se muestra.
Si tiene un punto de control Hifi-Gan apropiado, puede omitir el aprendizaje de Hifi-Gan.