Transformer Text To Speech Скачать - Transformer Text To Speech исходный код скачать

Transformer Text To Speech

AI Исходный код

1.0.0

Скачать

Трансформатор текст в речь

Система текста в речь (TTS) преобразует нормальный текст языка в речь; Другие системы делают символические лингвистические представления, такие как фонетические транскрипции в речь. Теперь с недавним развитием в глубоком обучении можно преобразовать текст в человеческий голос. Для этого текст подается в нейронную сеть типа энкодера, чтобы вывести мель-спектрограмму. Эта мель-спектрограмма теперь может использоваться для создания аудио с использованием «алгоритма гриффин-лима». Но из-за своего недостатка в том, что он не может производить качество речи, подобное человеку, используется еще одна нейронная сеть по имени Wavenet, которая питается Mel-Spectrogram для производства звука, которое даже человек не может различать.

Модель архитектура

1. Трансформатор Ттс

Архитектура трансформатора энкодера-декодера для параллельной подготовки вместо этого для обучения SEQ2SEQ в случае такотрона-2.
Текст отправляется в качестве входного, а модель выводит мель-спектрограмму.
Многоголовое внимание используется, причина маскировки только на стороне декодера.
Бумага: Синтез нейронной речи с сетью трансформаторов.

2. Wavenet

*

Выход трансформатора TTS (Mel-Spectrogram) подается в волну для генерации образцов аудио.
В отличие от моделей SEQ2SEQ Wavenet также позволяет параллельно тренироваться.
Бумага: Wavenet: генеративная модель для необработанного аудио.

Информация о наборе данных

Модель была обучена подмножеству набора данных английского языка WMT-2014. Предварительная обработка была проведена до обучения модели.
Набор данных: https://keithito.com/lj-peech-dataset/

Расширять

Дополнительная информация