これは、Tacotron2モデルとボコーダーモデル(Griffinlim、Wavenet、Melgan)を組み合わせて韓国のTTを実装するプロジェクトです。
に基づく
https://github.com/tensorspeech/tensorflowtts
https://github.com/hccho2/tacotron2-korean-tts
https://carpedm20.github.io/tacotron/
コーラン単一スピーカースピーチ
俳優のユ・インナの声
ペットのペットトレーナーKang Hyung -Wook Voice
学習で実施されたオーディオデータは、著作権の問題と共有されていません。各データソースを確認してください。
KSS:https://www.kaggle.com/bryanpark/korean-le-speaker-speech-dataset
KBSラジオ:http://program.kbs.co.kr/2fm/radio/uvolum/pc/index.html
WAVファイルをnumpyファイルに変換します
「オーディオ」、「メル」、「線形」、「テキスト」など
data/kss/"音声ファイルname.npz作成
メルスペクトルグラム、線形スペクトルグラムの正解セット
合計4つの学習があります。
Tacotron2 + Griffinlim + Singlespeaker
Tacotron2 + Griffinlim + Multispeaker(Deep Voice 2)
Tacotron2 + Melgan +シングルスピーカー
Tacotron2 + Melgan + Multispeaker(転送学習)
tacotron2 + griffinlim + multispeaker(kss + yoo inna)KSSデータ

tacotron2 + griffinlim + multispeaker(kss + yoo in -na)

Tacotron2 + Melgan + Singlespeaker(KSS)
