Официальная реализация редактирования: редактирование на основе баллов для управляемого текста в речь. Образцы аудио доступны на нашей демонстрационной странице.
Мы представляем Editts, методологию редактирования речи, основанную на генеративном моделировании на основе баллов для синтеза текста в речь. Editts позволяет целенаправленно, гранулированное редактирование аудио, как с точки зрения контента, так и высоты, без необходимости какого-либо дополнительного обучения, оптимизации для конкретной задачи или архитектурных модификаций на основу модели на основе баллов. В частности, мы применяем грубые, но преднамеренные возмущения в предыдущем пространстве Гаусса, чтобы вызвать желаемое поведение из диффузионной модели, применяя маски и смягчая ядра, чтобы гарантировать, что итерационные изменения применяются только к целевой области. Тесты на прослушивание показывают, что редактирование способно надежно генерировать естественный звук, который удовлетворяет требованиям, наложенным на пользователя.
Пожалуйста, укажите эту работу следующим образом.
@inproceedings { tae22_interspeech ,
author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
year = 2022 ,
booktitle = { Proc. Interspeech 2022 } ,
pages = { 421--425 } ,
doi = { 10.21437/Interspeech.2022-6 }
} Создайте виртуальную среду Python ( venv или conda ) и установите требования к пакетам, как указано в requirements.txt .
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txtСоздайте модуль монотонного выравнивания.
cd model/monotonic_align
python setup.py build_ext --inplaceДля получения дополнительной информации обратитесь к официальному хранилищу Grad-TTS.
Следующие контрольно -пропускные пункты уже включены как часть этого репозитория под checkpts .
Подготовьте входной файл, содержащий образцы для генерации речи. Отметьте сегмент, который будет отредактирован через вертикальный стержень, | Полем Например, один образец может выглядеть как
В | Лицо препятствий признано, что обескураживает |
Мы предоставляем образец входного файла в resources/filelists/edit_pitch_example.txt .
Чтобы сделать вывод, введите
CUDA_VISIBLE_DEVICES=0 python edit_pitch.py
-f resources/filelists/edit_pitch_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/pitch/wavs Регулируйте CUDA_VISIBLE_DEVICES по мере необходимости.
Подготовьте входной файл, содержащий пары предложений. Согласно каждой паре с # и отметьте детали, которые должны быть заменены вертикальным сепаратором стержня. Например, одна пара может выглядеть
Трое других впоследствии | идентифицировано | Освальд с фотографии. #Three другие впоследствии | Признано | Освальд с фотографии.
Мы предоставляем образец входного файла в resources/filelists/edit_content_example.txt .
Чтобы сделать вывод, введите
CUDA_VISIBLE_DEVICES=0 python edit_content.py
-f resources/filelists/edit_content_example.txt
-c checkpts/grad-tts-old.pt -t 1000
-s out/content/wavsВыпущено по модифицированной общей публичной лицензии GNU.