Скачать dc_tts - dc_tts Скачать исходный код

dc_tts

AI Исходный код

1.0.0

Скачать

Реализация TensorFlow DC-TTS: еще одна модель текста в речь

Я внедряю еще одну модель текста в речь, DC-TTS, представленная в эффективной обучаемой системе текста в речь, основанной на глубоких сверточных сетях с руководством. Моя цель, однако, - не просто копирование бумаги. Скорее, я хотел бы получить представление о различных звуковых проектах.

Требования

Numpy> = 1.11.1
TensorFlow> = 1,3 (обратите внимание, что API tf.contrib.layers.layer_norm изменился с 1.3)
Librosa
TQDM
matplotlib
Scipy

Данные

Я обучаю английские модели и корейскую модель на четырех различных наборах данных.

1. Набор данных речи LJ
2. Аудиокниги Ника Оффермана
3. Аудиокнига Кейт Уинслет
4. Набор данных KSS

Набор данных речи LJ недавно широко используется в качестве контрольного набора данных в задаче TTS, поскольку он общедоступен, и у него 24 часа разумных качественных образцов. Аудиокниги Ника и Кейт дополнительно используются, чтобы увидеть, сможет ли модель изучать даже с меньшими данными, переменными речевыми образцами. Они 18 часов и 5 часов, соответственно. Наконец, набор данных KSS - это корейский набор речевой данных для одного динамика, который длится более 12 часов.

Обучение

Шаг 0. Загрузите набор данных речи LJ или подготовьте свои собственные данные.
Шаг 1. Отрегулируйте гипер -параметры в hyperparams.py . (Если вы хотите сделать предварительную обработку, установите Prefro True '.
Шаг 2. Запустите python train.py 1 для обучения Text2mel. (Если вы установите Prefro True, сначала запустите Python prefro.py)
Шаг 3. Запустите python train.py 2 для обучения SSRN.

Вы можете сделать шаг 2 и 3 одновременно, если у вас есть более одной карты графического процессора.

Кривые обучения

Заговор внимания

Образец синтез

Я генерирую выборочные выборы на основе Гарвардских предложений, как это делает оригинальная статья. Он уже включен в репо.

Запустите synthesize.py и проверьте файлы в samples .

Сгенерированные образцы

Набор данных	Образцы
LJ	50K 200K 310K 800K
Ник	40K 170K 300K 800K
Кейт	40K 160K 300K 800K
KSS	400K

Предварительная модель для ЖЖ

Скачать это.

Примечания

В статье не упоминалась нормализация, но без нормализации я не мог заставить ее работать. Поэтому я добавил нормализацию слоя.
Документ установил скорость обучения до 0,001, но для меня это не сработало. Так что я разлагал это.
Я пытался тренировать Text2MEL и SSRN одновременно, но это не сработало. Я думаю, что разделение этих двух сетей смягчает бремя обучения.
Авторы утверждали, что модель может быть обучена в течение дня, но, к сожалению, удача не была моей. Однако, очевидно, это намного не так, как такотрон, поскольку он использует только слои свертки.
Благодаря внимательному вниманию сюжет внимания выглядит почти монотонным почти с самого начала. Я думаю, что это, кажется, крепко удерживает алигмент, поэтому он не потеряет трек.
В газете не упоминалось отсевы. Я применил их так, как считаю, это помогает для регуляризации.
Проверьте также другие модели TTS, такие как Tacotron и Deep Voice 3.

Расширять

Дополнительная информация