Предыдущие работы обнаружили, что генерирование когерентных необработанных звуковых форм с GANS является сложной задачей. В этой статье мы показываем, что можно надежно научить GANS для создания высококачественных когерентных сигналов, внедряя набор архитектурных изменений и простых методов обучения. Метрика субъективной оценки (средняя оценка мнения, или MOS) показывает эффективность предлагаемого подхода для высококачественной инверсии мель-спектрограммы. Чтобы установить общность предлагаемых методов, мы показываем качественные результаты нашей модели в области синтеза речи, перевода музыкальной области и безоговорочного синтеза музыки. Мы оцениваем различные компоненты модели посредством исследований абляции и предлагаем набор руководящих принципов для разработки дискриминаторов общего назначения и генераторов для задач синтеза условной последовательности. Наша модель неавторегрессивная, полностью сверточная, со значительно меньшим количеством параметров, чем конкурирующие модели, и обобщается до невидимых динамиков для инверсии мель-спектрограммы. Наша реализация Pytorch работает в более чем в 100 раз быстрее, чем в реальном времени на графическом процессоре GTX 1080TI, и более чем в 2 раза быстрее, чем в реальном времени на процессоре, без каких-либо специальных уборов оптимизации. Сообщение в блоге с образцами и сопровождающим кодом скоро появится.
Посетите наш веб -сайт для образцов. Вы можете попробовать приложение для коррекции речи, созданное на основе сквозного трубопровода синтеза речи с использованием Мелгана.
Проверьте слайды, если вы не посещаете конференцию Neurips 2019, чтобы проверить наш плакат.
├── README.md <- Top-level README.
├── set_env.sh <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│ ├── dataset.py <- data loader scripts
│ ├── modules.py <- Model, layers and losses
│ ├── utils.py <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│ ├── train.py <- training / validation / etc scripts
│ ├── generate_from_folder.py
Создайте необработанную папку со всеми образцами, хранящимися в wavs/ подпапке. Запустите эти команды:
ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>
import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio) # audio (torch.tensor) -> (batch_size, 80, timesteps)