Ini adalah proyek yang menggabungkan model Tacotron2 dan model Vocoder (Griffinlim, Wavenet, Melgan) untuk mengimplementasikan TT Korea.
Berdasarkan
https://github.com/tensorspeech/tensorflowtts
https://github.com/hccho2/tacotron2-korean-tts
https://carpedm20.github.io/tacotron/
Pidato pembicara tunggal Alquran
Suara Aktor Yoo Inna
Pelatih Pet Pet Kang Hyung -wook Voice
Data audio yang dilakukan pada pembelajaran tidak dibagikan dengan masalah hak cipta. Silakan periksa setiap sumber data.
KSS: https://www.kaggle.com/bryanpark/korean-le-sheat-sheech-dataset
KBS Radio: http://program.kbs.co.kr/2fm/radio/uvolum/pc/index.html
Konversi file WAV ke file numpy
'Audio', 'Mel', 'Linear', 'Text', dll.
Data/KSS/"Nama file suara.npz Creation
Mel-spectrogram, set-spectrogram linear set jawaban yang benar
Ada total empat pembelajaran.
Tacotron2 + Griffinlim + SinglesPeaker
TACOTRON2 + GRIFFINLIM + MULTISPEAKER (suara Deep 2)
Tacotron2 + Melgan + Speaker Tunggal
TACOTRON2 + Melgan + Multispeaker (Pembelajaran Transfer)
Tacotron2 + Griffinlim + Data Multispispeaker (KSS + Yoo Inna) KSS

TACOTRON2 + GRIFFINLIM + MULTISPEAKER (KSS + YOO IN -NA)

Tacotron2 + Melgan + SinglesPeaker (KSS)
