melgan neurips скачать - скачать исходный код melgan neurips

melgan neurips

Питон

1.0.0

Скачать

Официальный репозиторий для статьи Мелган: Генеративные состязательные сети для условного синтеза формы волны

Предыдущие работы обнаружили, что генерирование когерентных необработанных звуковых форм с GANS является сложной задачей. В этой статье мы показываем, что можно надежно научить GANS для создания высококачественных когерентных сигналов, внедряя набор архитектурных изменений и простых методов обучения. Метрика субъективной оценки (средняя оценка мнения, или MOS) показывает эффективность предлагаемого подхода для высококачественной инверсии мель-спектрограммы. Чтобы установить общность предлагаемых методов, мы показываем качественные результаты нашей модели в области синтеза речи, перевода музыкальной области и безоговорочного синтеза музыки. Мы оцениваем различные компоненты модели посредством исследований абляции и предлагаем набор руководящих принципов для разработки дискриминаторов общего назначения и генераторов для задач синтеза условной последовательности. Наша модель неавторегрессивная, полностью сверточная, со значительно меньшим количеством параметров, чем конкурирующие модели, и обобщается до невидимых динамиков для инверсии мель-спектрограммы. Наша реализация Pytorch работает в более чем в 100 раз быстрее, чем в реальном времени на графическом процессоре GTX 1080TI, и более чем в 2 раза быстрее, чем в реальном времени на процессоре, без каких-либо специальных уборов оптимизации. Сообщение в блоге с образцами и сопровождающим кодом скоро появится.

Посетите наш веб -сайт для образцов. Вы можете попробовать приложение для коррекции речи, созданное на основе сквозного трубопровода синтеза речи с использованием Мелгана.

Проверьте слайды, если вы не посещаете конференцию Neurips 2019, чтобы проверить наш плакат.

Кодовая организация

 ├── README.md             <- Top-level README.
├── set_env.sh            <- Set PYTHONPATH and CUDA_VISIBLE_DEVICES.
│
├── mel2wav
│   ├── dataset.py           <- data loader scripts
│   ├── modules.py           <- Model, layers and losses
│   ├── utils.py             <- Utilities to monitor, save, log, schedule etc.
│
├── scripts
│   ├── train.py                    <- training / validation / etc scripts
│   ├── generate_from_folder.py

Подготовка набора данных

Создайте необработанную папку со всеми образцами, хранящимися в wavs/ подпапке. Запустите эти команды:

ls wavs/ * .wav | tail -n+10 > train_files.txt
ls wavs/ * .wav | head -n10 > test_files.txt

Пример обучения

 . source set_env.sh 0
# Set PYTHONPATH and use first GPU
python scripts/train.py --save_path logs/baseline --path <root_data_folder>

Пример хаба Pytorch

 import torch
vocoder = torch.hub.load('descriptinc/melgan-neurips', 'load_melgan')
vocoder.inverse(audio)  # audio (torch.tensor) -> (batch_size, 80, timesteps)

Расширять

Дополнительная информация