Comprehensive E2E TTS

Comprehensive E2E TTS

AI Исходный код

1.0.0

Скачать

Комплексный-E2E-TTS-внедрение Pytorch

Неавторегрессивный сквозной сквозной текст в речь (генерируя текст волновой формы), поддерживающая семейство моделей продолжительности SOTA, не контролируемой продолжительностью. Этот проект растет с исследовательским сообществом, стремясь достичь конечных E2E-TTS . Любые предложения по отношению к лучшим сквозным TTS приветствуются :)

Архитектура дизайн

Wavthruvec: скрытая речевая речевая представление как промежуточные особенности для синтеза нейронной речи (Siuzdak et al., 2022)
Самолеты: совместно тренировать Fastspeech2 и Hifi-Gan для окончания текста к речи (Lim et al., 2022)

Лингвистический энкодер

Fastspeech 2: Быстрый и высококачественный сквозной текст к речи (Ren et al., 2020)

Audio Upsampler

Hifi ++: унифицированная структура для нейронного вокана, расширения полосы пропускания и улучшения речи (Andreev et al., 2022)
Hifi-Gan: Генеративные состязательные сети для эффективного и высокого синтеза речи и высокой верности (Kong et al., 2020)

Продолжительное моделирование

Моделирование дифференцируемой продолжительности для сквозного текста в речь (Nguyen et al., 2022)
Одно выравнивание TTS, чтобы управлять ими всех (Badlani et al., 2021)

QuickStart

Набор данных относится к именам наборов данных, таких как LJSpeech и VCTK в следующих документах.

Зависимости

Вы можете установить зависимости Python с

 pip3 install -r requirements.txt

Кроме того, Dockerfile предоставлен для пользователей Docker .

Вывод

Вы должны скачать предварительно проведенные модели (скоро будут переданы) и поместить их в output/ckpt/DATASET/ .

Для одноразовых TTS , бегите

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET

Для многопрофильных TTS , запустите

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --speaker_id SPEAKER_ID --restore_step RESTORE_STEP --mode single --dataset DATASET

Словарь ученых докладчиков можно найти на preprocessed_data/DATASET/speakers.json output/result/

Партийный вывод

Пакетный вывод также поддерживается, попробуйте

 python3 synthesize.py --source preprocessed_data/DATASET/val.txt --restore_step RESTORE_STEP --mode batch --dataset DATASET

Чтобы синтезировать все высказывания в preprocessed_data/DATASET/val.txt .

Управляемость

Скорость шага/объема/разговора синтезированных высказываний можно контролировать, указав желаемый коэффициент высоты/энергии/продолжительности. Например, можно увеличить скорость разговора на 20 % и уменьшить объем на 20 % на

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step RESTORE_STEP --mode single --dataset DATASET --duration_control 0.8 --energy_control 0.8

Добавить -speaker_id speaker_id для многопрофильного TTS.

Обучение

Наборы данных

Поддерживаемые наборы данных

LJSPEECH: Английский набор данных с одним дивиксером состоит из 13100 коротких аудио-клипов женского поступления, чтения спикеров от 7 не художественных книг, в общей сложности примерно 24 часа.
VCTK: CSTR VCTK CORPUS включает в себя речевые данные, произнесенные 110 носителями английского языка ( многопрофильные TTS ) с различными акцентами. Каждый оратор читает около 400 предложений, которые были отобраны из газеты, радужный отрывок и абзац выявления, используемый для архива речевого акцента.

Любой из набора данных TTS с одной динамикой (например, Blizzard Challenge 2013), так и набор данных Multi-Speaker TTS (например, Libritts) можно добавить после LJSPEECH и VCTK, соответственно. Более того, ваш собственный язык и набор данных могут быть адаптированы здесь.

Предварительная обработка

Для Multi-Speaker TTS с внешним динамиком Embedder загрузите Rescnn Softmax+триплетный предварительно предварительно предварительно проведенный модели DeepSpeaker Филипперей для динамика, внедряющего его и найдите его в ./deepspeaker/pretrained_models/ .
Запустить сценарий предварительной обработки
```
 python3 preprocess.py --dataset DATASET
```

Обучение

Тренировать свою модель с

 python3 train.py --dataset DATASET

Полезные варианты:

Тренер предполагает, что однокно-мульти-GPU обучение. Чтобы использовать конкретные графические процессоры, укажите CUDA_VISIBLE_DEVICES=<GPU_IDs> в начале вышеуказанной команды.

Тенсорборд

Использовать

 tensorboard --logdir output/log

Подавать в Tensorboard на вашем местном хосте.

Примечания

Два варианта внедрения для настройки Multi-Speaker TTS : обучающий динамик Embedder с нуля или использование предварительно обученной модели DeepSpeaker от Philipperemy (как это сделал Styler). Вы можете переключить его, установив конфигурацию (между 'none' и 'DeepSpeaker' ).
DeepSpeaker на наборе данных VCTK показывает четкую идентификацию среди ораторов. На следующем рисунке показан график T-SNE извлеченного динамика.