В нашей недавней статье мы предлагаем WG-Wavenet, быструю, легкую и высококачественную модель генерации сигналов. WG-Wavenet состоит из модели на основе компактного потока и постфильтера. Два компонента совместно обучаются путем максимизации вероятности обучающих данных и оптимизации функций потерь на частотных областях. Когда мы разрабатываем модель на основе потока, которая сильно сжата, предлагаемая модель требует гораздо меньше вычислительных ресурсов по сравнению с другими моделями генерации сигналов как во время обучения, так и во времени вывода; Несмотря на то, что модель сильно сжата, постфильтр поддерживает качество генерируемой формы волны. Наша реализация Pytorch может быть обучена с использованием менее 8 ГБ памяти GPU и генерирует образцы звука со скоростью более 5000 кГц на GPU NVIDIA 1080TI. Кроме того, даже если синтезируется на процессоре, мы показываем, что предлагаемый метод способен генерировать 44,1 кГц речевую форму в 1,2 раза быстрее, чем в режиме реального времени. Эксперименты также показывают, что качество генерируемого звука сопоставимо с качеством других методов.
Посетите демопаж для образцов аудио.
Скачать речь LJ. В этом примере это в data/
Для обучения запустите следующую команду.
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > Работа в процессе.
Мы будем объединить этот вокадер с такотроном2. Более подробная информация и демонстрация Colab будут опубликованы здесь.