Скачать PortaSpeech - скачать исходный код PortaSpeech

PortaSpeech

AI Исходный код

v0.2.0

Скачать

Portaspeech - реализация Pytorch

Реализация Pytorch Portaspeech: портативный и высококачественный генеративный текст в речь.

Аудио Образцы

Образцы аудио доступны в /демо.

Размер модели

Модуль	Нормальный	Маленький	Нормальный (бумага)	Маленький (бумага)
Общий	24 м	7,6 м	21,8 млн	6,7 м
Linguisticencoder	3,7 м	1,4 м	-	-
VariationalGenerator	11m	2,8 м	-	-
Flowpostnet	9,3 м	3,4 м	-	-

QuickStart

Набор данных относится к именам наборов данных, таких как LJSpeech в следующих документах.

Зависимости

Вы можете установить зависимости Python с

 pip3 install -r requirements.txt

Кроме того, Dockerfile предоставлен для пользователей Docker .

Вывод

Вы должны загрузить предварительно подготовленные модели и поместить их в output/ckpt/DATASET/ .

Для одноразовых TTS , бегите

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Сгенерированные высказывания будут помещены в output/result/ .

Партийный вывод

Пакетный вывод также поддерживается, попробуйте

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Чтобы синтезировать все высказывания в preprocessed_data/DATASET/val.txt .

Управляемость

Скорость разговора синтезированных высказываний может контролироваться путем указания желаемых коэффициентов продолжительности. Например, можно увеличить скорость разговора на 20 на

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8

Обратите внимание, что управляемость происходит от Fastspeech2, а не жизненно важного интереса Portaspeech.

Обучение

Наборы данных

Поддерживаемые наборы данных

LJSPEECH: Набор данных по английскому языку с одним ди-дивигратором состоит из 13100 коротких аудиоклипов женских ораторов, чтения спикеров из 7 не художественных книг, в общей сложности примерно 24 часа.

Предварительная обработка

Бегать

 python3 prepare_align.py --dataset DATASET

для некоторых приготовлений.

Для принудительного выравнивания Монреаль принудительный выравниватель (MFA) используется для получения выравнивания между высказываниями и последовательностями фонем. Предварительные выравнивания для наборов данных представлены здесь. Вы должны расстегнуть разанипировать файлы в preprocessed_data/DATASET/TextGrid/ . С другой стороны, вы можете запустить выравниватель самостоятельно.

После этого запустите сценарий предварительной обработки

 python3 preprocess.py --dataset DATASET

Обучение

Тренировать свою модель с

 python3 train.py --dataset DATASET

Полезные варианты:

Чтобы использовать автоматическую смешанную точность, добавьте аргумент --use_amp к вышеуказанной команде.
Тренер предполагает, что однокно-мульти-GPU обучение. Чтобы использовать конкретные графические процессоры, укажите CUDA_VISIBLE_DEVICES=<GPU_IDs> в начале вышеуказанной команды.

Тенсорборд

Использовать

 tensorboard --logdir output/log

Подавать в Tensorboard на вашем местном хосте. Кривые потерь, синтезированные мель-спектрограммы и аудио показаны.

Нормальная модель

Небольшая потеря модели

Примечания

Для Vocoder поддерживают Hifi-Gan и Melgan .
Нет активации Relu и Layerorm в вариационном диагенераторе , чтобы избежать пюре.
Ускоряйте конвергенцию выравнивания слов к фонеме в Linguisticencoder, разделив длинные слова на подчинки и сортируя набор данных по длине кадра Mel-Spectrogram.
Существует два вида потери помощника, чтобы улучшить выравнивание слов к фонеме: «CTC» и «DGA». Вы можете переключить их следующим образом:
```
 # In the train.yaml
aligner :
    helper_type : " dga " # ["dga", "ctc", "none"]
```
- «DGA»: Диагональное внимание на руководство (DGA)
- «CTC»: Потеря височной классификации (CTC) с подключением к алгоритму вперед-sum
- Если вы установите «Нет», во время обучения не будет применена потери помощника.
- Сравнение выравнивания трех методов («DGA», «CTC» и «none» сверху донизу):
- Настройка по умолчанию - «DGA». Хотя «CTC» делает самое сильное выравнивание, качество вывода и точность хуже, чем «DGA».
- Но все же, есть место для улучшения качества выпуска. Качество звука и алинг (точность) кажутся компромиссом.
Будет распространяться на многопрофильные TTS .