Скачать DiffGAN TTS - DiffGAN TTS исходный код скачать

DiffGAN TTS

AI Исходный код

1.0.0

Скачать

Diffgan -TTS - реализация Pytorch

Реализация Pytorch Diffgan-TTS: высокая точка и эффективная текст в речь с двойной диффузией Gans

Статус репозитория

Наивная версия Diffgan-TTS
Активный мелкий диффузионный механизм: Diffgan-TTS (двухэтапный)

Аудио Образцы

Образцы аудио доступны в /демо.

QuickStart

Набор данных относится к именам наборов данных, таких как LJSpeech и VCTK в следующих документах.

Модель относится к типам модели (выберите « Наив », « aux », « мелкий »).

Зависимости

Вы можете установить зависимости Python с

 pip3 install -r requirements.txt

Вывод

Вы должны скачать предварительно подготовленные модели и поместить их в

output/ckpt/DATASET_naive/ для « наивной » модели.
output/ckpt/DATASET_shallow/ для « неглубокой » модели. Обратите внимание, что контрольная точка « мелкой » модели содержит как « мелкие », так и модели « Aux », и эти две модели будут использовать все каталоги, за исключением результатов на протяжении всего процесса.

Для одноразовых TTS , бегите

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET

Для многопрофильных TTS , запустите

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Словарь ученых докладчиков можно найти на preprocessed_data/DATASET/speakers.json output/result/

Партийный вывод

Пакетный вывод также поддерживается, попробуйте

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --model MODEL --restore_step RESTORE_STEP --mode batch --dataset DATASET

Чтобы синтезировать все высказывания в preprocessed_data/DATASET/val.txt .

Управляемость

Скорость шага/объема/разговора синтезированных высказываний можно контролировать, указав желаемый коэффициент высоты/энергии/продолжительности. Например, можно увеличить скорость разговора на 20 % и уменьшить объем на 20 % на

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --model MODEL --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Обратите внимание, что управляемость происходит от Fastspeech2, а не жизненно важного интереса Diffgan-TTS.

Обучение

Наборы данных

Поддерживаемые наборы данных

LJSPEECH: Английский набор данных с одним дивиксером состоит из 13100 коротких аудио-клипов женского поступления, чтения спикеров от 7 не художественных книг, в общей сложности примерно 24 часа.
VCTK: CSTR VCTK CORPUS включает в себя речевые данные, произнесенные 110 носителями английского языка ( многопрофильные TTS ) с различными акцентами. Каждый оратор читает около 400 предложений, которые были отобраны из газеты, радужный отрывок и абзац выявления, используемый для архива речевого акцента.

Предварительная обработка

Для Multi-Speaker TTS с внешним динамиком Embedder загрузите Rescnn Softmax+триплетный предварительно предварительно предварительно проведенный модели DeepSpeaker Филипперей для динамика, внедряющего его и найдите его в ./deepspeaker/pretrained_models/ .
Бегать
```
 python3 prepare_align.py --dataset DATASET
```
для некоторых приготовлений.
Для принудительного выравнивания Монреаль принудительный выравниватель (MFA) используется для получения выравнивания между высказываниями и последовательностями фонем. Предварительные выравнивания для наборов данных представлены здесь. Вы должны расстегнуть разанипировать файлы в preprocessed_data/DATASET/TextGrid/ . С другой стороны, вы можете запустить выравниватель самостоятельно.
После этого запустите сценарий предварительной обработки
```
 python3 preprocess.py --dataset DATASET
```

Обучение

Вы можете обучить три типа модели: « Наив », « Aux » и « мелкие ».

Обучение наивной версии (« Наив »):
Тренировать наивную версию с
```
 python3 train.py --model naive --dataset DATASET
```
Обучение основной акустической модели для мелкой версии (« Aux »):
Чтобы тренировать мелкую версию, нам нужна предварительно обученная Fastspeech2. Команда ниже позволит вам обучить модули FastSpeech2, включая вспомогательный (MEL) декодер.
```
 python3 train.py --model aux --dataset DATASET
```
Учебная неглубокая версия (« мелкая »):
Чтобы использовать предварительно обученный FastSpeech2, включая вспомогательный (MEL) декодер, вы должны пройти --restore_step с последним этапом вспомогательного обучения FastSpeech2 в качестве следующей команды.
```
 python3 train.py --model shallow --restore_step RESTORE_STEP --dataset DATASET
```
Например, если последняя контрольная точка сохраняется в 200000 шагов во время вспомогательного обучения, вам нужно установить --restore_step с 200000 . Затем он загрузит и заморозит модель AUX, а затем продолжит обучение в рамках активного механизма мелкого диффузии.

Тенсорборд

Использовать

 tensorboard --logdir output/log/DATASET

Подавать в Tensorboard на вашем местном хосте. Кривые потерь, синтезированные мель-спектрограммы и аудио показаны.

Наивная диффузия

Мелкая диффузия

Примечания

В дополнение к диффузионному декодеру, адаптер дисперсии также обусловлен информацией динамика.
Безусловный и условный выход дискриминатора JCU усредняется во время каждого расчета потерь, как это сделал Vocgan.
Некоторые различия в данных и предварительной обработке по сравнению с исходной статьей:
- Использование VCTK (109 динамиков) вместо мандаринского китайца из 228 динамиков.
- Следуя конфигурации звука Diffspeech, например, скорость дискретизации составляет 22050 Гц, а не 24 000 Гц.
- Кроме того, после извлечения и моделирования дисперсии Diffspeech.
lambda_fm прикреплен к значению SCALA, поскольку динамически масштабированный скаляр, вычисленный как L_RECON/L_FM, заставляет модель взрываться.
Два варианта внедрения для настройки Multi-Speaker TTS : обучающий динамик Embedder с нуля или использование предварительно обученной модели DeepSpeaker от Philipperemy (как это сделал Styler). Вы можете переключить его, установив конфигурацию (между 'none' и 'DeepSpeaker' ).
DeepSpeaker на наборе данных VCTK показывает четкую идентификацию среди ораторов. На следующем рисунке показан график T-SNE извлеченного динамика.