Acoustic-FastSpeech2 (personalizado)
Desempenho razoável, utilizando o aprendizado de transferência para personalização com pequenas quantidades de dados
Forneça APIs que podem ser criadas com ajuste fino em conjuntos de dados coreanos em tempo real
Modificação do código do modelo de acordo com tune fine
Fácil pré -processamento, trem, síntese através do script de shell
Forneça uma imagem exclusiva do Docker
Ele corresponde ao nome do arquivo do FastSpeech2 e do HIFI-GAN CKPT pré-treinado e o mantém em cada modelo.
(FastSpeech2: 30.000 etapas de aprendizado / hiFi -gan -Jungtils Official do rei -universo -universo)
Para aprendizado e síntese, carregamos e executamos imagens do Docker que contêm todos os pacotes dependentes.
docker pull hws0120/e2e_speech_synthesis
Run_fs2_preprocessing.sh As etapas são conectadas ao Docker com um comando CONDA e instala o pacote Python JAMO.
conda activate aligner
pip install jamo
Fim do ambiente virtual para executar run_fs2_train ou síntese.
conda activate base
Se você encontrar todos os itens acima, execute o script do shell para extrair o MFA.
sh run_FS2_preprocessing.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Cria um texto com sucesso para sair do ambiente virtual e executar o script de aprendizado.
sh run_FS2_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Quando o aprendizado do FastSpeech2 5000 etapas for concluído, execute o script HIFI-GAN.
sh run_HiFi-GAN_train.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Quando um modelo aprendido na pasta CKPT estiver pronto, execute um script para síntese.
sh run_FS2_synthesize.sh
# Enter the dataset name
[Dataset_Name](ex. HW)
Cada contêiner é estabelecido no processo de aprendizado e síntese e no processo, como mostrado.
Se você possui um ponto de verificação HIFI-GAN apropriado, pode omitir o aprendizado do HIFI-GAN.