Официальная реализация Learn2sing 2.0. Для всех деталей ознакомьтесь с нашей статьей, которая принимается Interspeech 2022 по этой ссылке.
Авторы : Хейан Сюэ, Синшенг Ванг, Йонгмао Чжан, Лей Си, Пенгчэн Чжу, Менгсиао Би.
Демо -страница : ссылка.
Создание высококачественного пения корпус для человека, который не умеет петь, является нетривиальным, что делает трудности создать синтезатор поющего голоса для этого человека. Learn2sing посвящена синтезу пения голоса оратора без его или ее поющих данных, учитывая данные, записанные другими, т. Е. Поющий учитель. Вдохновленный тем фактом, что PITE является ключевым фактором стиля, чтобы отличить пение от говорящего голоса, предлагаемый Learn2sing 2.0 сначала генерирует предварительную акустическую функцию с усредненным значением высоты тона на уровне телефона, что позволяет обучить этот процесс для разных стилей, т.е., говоря или пение, обмениваться теми же условиями, за исключением информации о колонке. Затем, обусловленный конкретным стилем, диффузионный декодер, который ускоряется алгоритмом быстрого отбора проб, принимается для постепенного восстановления окончательной акустической особенности. Во время обучения, чтобы избежать информационной путаницы встраивания спикера и встраивания стиля, взаимная информация используется для ограничения изучения встраивания динамиков и встраивания стиля. Эксперименты показывают, что предлагаемый подход способен синтезировать высококачественный поющий голос для целевого динамика без пения данных с 10 шагами декодирования.
Замените телефонный набор и датчик в текстовом/символе.
Предоставьте путь к данным в config.json, папка TestData содержит примеры файлов для демонстрации формата
Обучение
bash run.sh
Вывод
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True