Это проект, который объединяет модель Tacotron2 и модель Vocoder (Griffinlim, Wavenet, Melgan) для реализации корейских TTS.
На основе
https://github.com/tensorspeech/tensorflowtts
https://github.com/hccho2/tacotron2-korean-tts
https://carpedm20.github.io/tacotron/
Коран Одиночный спикер речь
Актер Ю Инна голос
Тренер для домашних животных Kang Hyung -Wook Voice
Аудиоданные, проводимые на обучении, не передаются с проблемами авторских прав. Пожалуйста, проверьте каждый источник данных.
KSS: https://www.kaggle.com/bryanpark/korean-le-peaker-peech-dataset
Радио KBS: http://program.kbs.co.kr/2fm/radio/uvolum/pc/index.html
Преобразовать файл wav в файл Numpy
«Audio», «mel», «linear», «text» и т. Д.
Data/KSS/"Voice File name.npz Создание
Мель-спектрограмма, линейная спектрограмма Правильный набор ответов
Всего четыре обучения.
Tacotron2 + griffinlim + singlespeaker
Tacotron2 + griffinlim + multispeaker (Deep Voice 2)
Tacotron2 + Melgan + Одиночный динамик
Tacotron2 + melgan + multispeaker (Transfer Learning)
Tacotron2 + griffinlim + multipeaker (kss + yoo inna)

Tacotron2 + griffinlim + multispeaker (kss + yoo in -na)

Tacotron2 + melgan + singlespeaker (kss)
