Скачать editts - editts Скачать исходный код

editts

AI Исходный код

1.0.0

Скачать

Редактирование: редактирование на основе баллов для управляемого текста в речь

Официальная реализация редактирования: редактирование на основе баллов для управляемого текста в речь. Образцы аудио доступны на нашей демонстрационной странице.

Абстрактный

Мы представляем Editts, методологию редактирования речи, основанную на генеративном моделировании на основе баллов для синтеза текста в речь. Editts позволяет целенаправленно, гранулированное редактирование аудио, как с точки зрения контента, так и высоты, без необходимости какого-либо дополнительного обучения, оптимизации для конкретной задачи или архитектурных модификаций на основу модели на основе баллов. В частности, мы применяем грубые, но преднамеренные возмущения в предыдущем пространстве Гаусса, чтобы вызвать желаемое поведение из диффузионной модели, применяя маски и смягчая ядра, чтобы гарантировать, что итерационные изменения применяются только к целевой области. Тесты на прослушивание показывают, что редактирование способно надежно генерировать естественный звук, который удовлетворяет требованиям, наложенным на пользователя.

Цитирование

Пожалуйста, укажите эту работу следующим образом.

 @inproceedings { tae22_interspeech ,
  author = { Jaesung Tae and Hyeongju Kim and Taesu Kim } ,
  title = { {EdiTTS: Score-based Editing for Controllable Text-to-Speech} } ,
  year = 2022 ,
  booktitle = { Proc. Interspeech 2022 } ,
  pages = { 421--425 } ,
  doi = { 10.21437/Interspeech.2022-6 }
}

Настраивать

Создайте виртуальную среду Python ( venv или conda ) и установите требования к пакетам, как указано в requirements.txt .
```
python -m venv venv
source venv/bin/activate
pip install -U pip
pip install -r requirements.txt
```
Создайте модуль монотонного выравнивания.
```
 cd model/monotonic_align
python setup.py build_ext --inplace
```

Для получения дополнительной информации обратитесь к официальному хранилищу Grad-TTS.

Контрольные точки

Следующие контрольно -пропускные пункты уже включены как часть этого репозитория под checkpts .

Grad-TTS (старый вер.)
Hifi-gan (lj_ft_t2_v1 ver.)

Перемещение шага

Подготовьте входной файл, содержащий образцы для генерации речи. Отметьте сегмент, который будет отредактирован через вертикальный стержень, | Полем Например, один образец может выглядеть как
В | Лицо препятствий признано, что обескураживает |
Мы предоставляем образец входного файла в resources/filelists/edit_pitch_example.txt .

Чтобы сделать вывод, введите

CUDA_VISIBLE_DEVICES=0 python edit_pitch.py 
    -f resources/filelists/edit_pitch_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/pitch/wavs

Регулируйте CUDA_VISIBLE_DEVICES по мере необходимости.

Замена содержания

Подготовьте входной файл, содержащий пары предложений. Согласно каждой паре с # и отметьте детали, которые должны быть заменены вертикальным сепаратором стержня. Например, одна пара может выглядеть
Трое других впоследствии | идентифицировано | Освальд с фотографии. #Three другие впоследствии | Признано | Освальд с фотографии.
Мы предоставляем образец входного файла в resources/filelists/edit_content_example.txt .

Чтобы сделать вывод, введите

CUDA_VISIBLE_DEVICES=0 python edit_content.py 
    -f resources/filelists/edit_content_example.txt 
    -c checkpts/grad-tts-old.pt -t 1000 
    -s out/content/wavs