Transformer Text To Speech
1.0.0
TTS (Text-To-Steeech) 시스템은 일반 언어 텍스트를 음성으로 변환합니다. 다른 시스템은 발음 전사와 같은 상징적 언어 적 표현을 음성으로 만듭니다. 이제 딥 러닝의 최근 발전으로 텍스트를 인간의 이해할 수있는 목소리로 변환 할 수 있습니다. 이를 위해 텍스트는 인코더 디코더 유형 신경망으로 공급되어 Mel-spectrogram을 출력합니다. 이 Mel-spectrogram은 이제 "Griffin-LIM 알고리즘"을 사용하여 오디오를 생성하는 데 사용될 수 있습니다. 그러나 인간과 같은 언어 품질을 생산할 수 없다는 단점으로 인해 Wavenet이라는 이름의 또 다른 신경망이 사용됩니다. 이는 Mel-Spectrogram에 의해 공급되어 인간조차도 차별화 할 수없는 오디오를 생산합니다.

*
이 모델은 WMT-2014 English-German 데이터 세트의 하위 집합에서 교육을 받았습니다. 모델을 훈련하기 전에 전처리를 수행 하였다.
데이터 세트 : https://keithito.com/lj-speech-dataset/