É um projeto que combina o modelo Tacotron2 e o modelo de vocoder (Griffinlim, Wavenet, Melgan) para implementar o TTS coreano.
Baseado em
https://github.com/tensorspeech/tensorflowtts
https://github.com/hccho2/tacotron2-korean-tts
https://carpedm20.github.io/tacotron/
Discurso de alto -falante do Alcorão
Voz do ator Yoo Inna
Pet Pet Trainer Kang Hyung -wok Voice
Os dados de áudio realizados sobre aprendizado não são compartilhados com problemas de direitos autorais. Verifique cada fonte de dados.
KSS: https://www.kaggle.com/bryanpark/korean-le-speaker-peath-dataset
Rádio KBS: http://program.kbs.co.kr/2fm/radio/uvolum/pc/index.html
Converta o arquivo WAV em um arquivo Numpy
'Audio', 'Mel', 'Linear', 'Text', etc.
Data/KSS/"Nome do arquivo de voz.npz criação
MEL-Spectrograma, Conjunto de respostas corretas de espectrograma linear
Há um total de quatro aprendizado.
Tacotron2 + griffinlim + singlespeaker
Tacotron2 + Griffinlim + MultisSpeaker (Voz Deep 2)
Tacotron2 + melgan + alto -falante
Tacotron2 + Melgan + Multisispaker (Learning de Transferência)
Tacotron2 + Griffinlim + MultisSpeaker (KSS + Yoo Inna) Dados KSS

Tacotron2 + Griffinlim + MultisSpeaker (KSS + Yoo em -na)

Tacotron2 + Melgan + Singlespeaker (KSS)
