Скачать CoMoSpeech - Скачать исходный код CoMoSpeech

CoMoSpeech

AI Исходный код

1.0.0

Скачать

Comospeech

Внедрение Comospeech. Для всех деталей ознакомьтесь с нашей статьей, принятой в ACM MM 2023: Comospeech: одноступенчатая речь и синтез голоса поют посредством модели последовательности.

Авторы : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.

Обновлять

2024-04-26

Мы предлагаем Flashspeech , эффективный синтезатор речи с нулевым выстрелом, основанный на модели скрытой согласованности и тренировки состязания. (Бумага).

2023-12-01

Мы также предлагаем хорошо продуманную версию пения конверсии голоса (SVC) на основе модели согласованности (код).

2023-11-30

Мы находим, что гауссовый шум с нулевым средством вместо предыдущего в Grad-TTS также может достичь аналогичной производительности. Мы выпускаем новый код и контрольные точки.

2023-10-21

Мы добавляем поддержку метода 2 -го порядка Хеуна для модели учителя (можно использовать для отбора проб учителя и лучшую траекторию ODE для дистилляции последовательности).

Абстрактный

Демо -страница : ссылка.

Вероятностные модели Denoing Diffusion (DDPMS) показали многообещающую производительность для синтеза речи. Тем не менее, для достижения высокого качества выборки требуется большое количество итерационных этапов, что ограничивает скорость вывода. Поддержание качества выборки при увеличении скорости выборки стало сложной задачей. В этой статье мы предлагаем метод синтеза речи на основе речи , Comospeech, который достигает синтеза речи посредством одной стадии диффузионного отбора проб при достижении высокого качества звука. Ограничение согласованности применяется для изготовления модели согласованности из хорошо разработанной модели учителя на основе диффузии, которая в конечном итоге дает превосходные характеристики в дистиллированной Comospeech. Наши эксперименты показывают, что, генерируя аудиозаписи на одном этапе отбора проб, Comospeech достигает скорости вывода в более чем в 150 раз быстрее, чем в реальном времени на одном графическом процессе Nvidia A100, который сравнимо с Fastspeech2, что делает диффузионный синтез речи на основе диффузионного речи. Между тем, объективные и субъективные оценки по синтезу голоса текста в речь и пения показывают, что предлагаемые модели учителей дают лучшее качество звука, а одноступенчатая на основе выборки Comospeech достигает наилучшей скорости вывода с лучшим или сопоставимым качеством звука для других обычных многоэтапных модельных базовых моделей.

Подготовить

Создайте код monotonic_align (цифон):

 cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..

Вывод

Запустите script inference.py , предоставив путь к текстовому файлу, путем к контрольной точке, количество выборки:

    python inference.py -f < text file > -c < checkpoint > -t < sampling steps >

Проверьте папку out для сгенерированных аудио. Обратите внимание, что в файле Params. Учитель = True для нашей модели учителя, ложь для нашего Comospeech. Кроме того, мы используем один и тот же Vocoder в Grad-TTS. Вы можете скачать его и поместить в папку Checkpts.

Обучение

Мы используем наборы данных LJSPEECH и следуем за разделением поезда/тестирования/VAL в FastSpeech2, вы можете изменить разделение в папке FS2_TXT. Затем запустите Script train.py ,

    python train.py

Обратите внимание, что в файле Params. Учитель = True для нашей модели учителя, ложь для нашего Comospeech. Во время обучения Complecheech, учительский справочный справочник должен быть предоставлен.

Контрольные точки, обученные LJSPEECH, могут быть загружены отсюда.