Система текста в речь (TTS) преобразует нормальный текст языка в речь; Другие системы делают символические лингвистические представления, такие как фонетические транскрипции в речь. Теперь с недавним развитием в глубоком обучении можно преобразовать текст в человеческий голос. Для этого текст подается в нейронную сеть типа энкодера, чтобы вывести мель-спектрограмму. Эта мель-спектрограмма теперь может использоваться для создания аудио с использованием «алгоритма гриффин-лима». Но из-за своего недостатка в том, что он не может производить качество речи, подобное человеку, используется еще одна нейронная сеть по имени Wavenet, которая питается Mel-Spectrogram для производства звука, которое даже человек не может различать.

*
Модель была обучена подмножеству набора данных английского языка WMT-2014. Предварительная обработка была проведена до обучения модели.
Набор данных: https://keithito.com/lj-peech-dataset/