Внедрение Comospeech. Для всех деталей ознакомьтесь с нашей статьей, принятой в ACM MM 2023: Comospeech: одноступенчатая речь и синтез голоса поют посредством модели последовательности.
Авторы : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.
2024-04-26
2023-12-01
2023-11-30
2023-10-21
Демо -страница : ссылка.
Вероятностные модели Denoing Diffusion (DDPMS) показали многообещающую производительность для синтеза речи. Тем не менее, для достижения высокого качества выборки требуется большое количество итерационных этапов, что ограничивает скорость вывода. Поддержание качества выборки при увеличении скорости выборки стало сложной задачей. В этой статье мы предлагаем метод синтеза речи на основе речи , Comospeech, который достигает синтеза речи посредством одной стадии диффузионного отбора проб при достижении высокого качества звука. Ограничение согласованности применяется для изготовления модели согласованности из хорошо разработанной модели учителя на основе диффузии, которая в конечном итоге дает превосходные характеристики в дистиллированной Comospeech. Наши эксперименты показывают, что, генерируя аудиозаписи на одном этапе отбора проб, Comospeech достигает скорости вывода в более чем в 150 раз быстрее, чем в реальном времени на одном графическом процессе Nvidia A100, который сравнимо с Fastspeech2, что делает диффузионный синтез речи на основе диффузионного речи. Между тем, объективные и субъективные оценки по синтезу голоса текста в речь и пения показывают, что предлагаемые модели учителей дают лучшее качество звука, а одноступенчатая на основе выборки Comospeech достигает наилучшей скорости вывода с лучшим или сопоставимым качеством звука для других обычных многоэтапных модельных базовых моделей.
Создайте код monotonic_align (цифон):
cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../.. Запустите script inference.py , предоставив путь к текстовому файлу, путем к контрольной точке, количество выборки:
python inference.py -f < text file > -c < checkpoint > -t < sampling steps > Проверьте папку out для сгенерированных аудио. Обратите внимание, что в файле Params. Учитель = True для нашей модели учителя, ложь для нашего Comospeech. Кроме того, мы используем один и тот же Vocoder в Grad-TTS. Вы можете скачать его и поместить в папку Checkpts.
Мы используем наборы данных LJSPEECH и следуем за разделением поезда/тестирования/VAL в FastSpeech2, вы можете изменить разделение в папке FS2_TXT. Затем запустите Script train.py ,
python train.py Обратите внимание, что в файле Params. Учитель = True для нашей модели учителя, ложь для нашего Comospeech. Во время обучения Complecheech, учительский справочный справочник должен быть предоставлен.
Контрольные точки, обученные LJSPEECH, могут быть загружены отсюда.
Я хотел бы выразить особую благодарность авторам Grad-TTS, поскольку наша база кода в основном заимствована у Grad-TTS.
Вы можете отправить запросы на развлечение или поделиться со мной некоторыми идеями. Контактная информация: zhen ye ([email protected])