Текст-речь (TTS) в последнее время показал большой прогресс в синтезировании высококачественной речи из-за быстрого развития параллельных систем TTS, но вызывая речь с натуралистическими просодическими вариациями, говорящие стили и эмоциональные тона остаются сложными. Более того, поскольку продолжительность и речь генерируются отдельно, модели параллельных TTS по -прежнему имеют проблемы с поиском лучших монотонных выравниваний, которые имеют решающее значение для синтеза натуралистической речи. Здесь мы предлагаем Styletts, генеративную модель, основанную на стиле для параллельных TTS, которая может синтезировать разнообразную речь с естественной просодией из-за справочной речевой высказывания. Благодаря новым схемам передачи монотонного выравнивателя (TMA) и продолжительностью инвариантного увеличения данных наш метод значительно превосходит современные модели как на наборах, так и на наборах с несколькими динамиками в субъективных тестах речи естественности и сходства динамиков. Благодаря самоутвержденному изучению стилей говорящих, наша модель может синтезировать речь с тем же просодическим и эмоциональным тоном, что и любая данная справочная речь без необходимости явного маркировки этих категорий.
Бумага: https://arxiv.org/abs/2107.10394
Образцы аудио: https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.gitОбучение первого этапа:
python train_first.py --config_path ./Configs/config.ymlТренировка второго этапа:
python train_second.py --config_path ./Configs/config.yml Вы можете запустить оба последовательно, и это будет тренировать как первую, так и вторую стадию. Модель будет сохранена в формате "EPOCH_1ST_%05D.PTH" и "EPOCH_2ND_%05D.PTH". Контрольные точки и журналы Tensorboard будут сохранены на log_dir .
Формат списка данных должен быть filename.wav|transcription .
Пожалуйста, обратитесь к specy.ipynb для деталей.
Предварительные стилеты и Hifi-Gan на LJSPEECH CORPUS в 24 кГц могут быть загружены на Link Styletts и Hifi-Gan Link.
Предварительные стилеты и Hifi-Gan on Libritts Corpus можно загрузить по ссылке Styletts и ссылке Hifi-Gan. Вам также необходимо скачать тестовый чист из Libritts, если вы хотите запустить демонстрацию с нулевым выстрелом.
Пожалуйста, расстегните зазазащились в Models и Vocoder , и запустите каждую ячейку в ноутбуке. Вам также нужно будет установить фонемайзер для запуска этого вывода.
Модели выравнивателя и экстрактора выравнивания текста и выравнивания высоты представлены в папке Utils . Как модели выравнивания текста, так и экстракторов тона обучаются с помощью мелфектограмм, предварительно обработанных с использованием meldataset.py.
Вы можете отредактировать Meldataset.py с помощью собственной предварительной обработки Melspectrogram, но предоставленные предварительные модели больше не будут работать. Вам нужно будет обучить свой собственный текстовый выравниватель и экстрактор высоты с новой предварительной обработкой.
Здесь доступен код для обучения новой модели выравнивания текста, и для обучения новых моделей экстрактора высоты доступны новые модели.
Я предоставлю больше подтверждений существующей предварительной обработкой, как в официальном Hifigan и ESPNet в будущем, если у меня будет дополнительное время. Если вы готовы помочь, не стесняйтесь вносить квитанции с ESPNet.