univnet скачать - загрузка исходного кода univnet

univnet

AI Исходный код

1.0.0

Скачать

Univnet

Univnet: нейронный вокадер с дискринаторами спектрограммы с несколькими разрешениями для генерации формы волны с высокой точки зрения

Это неофициальная реализация Pytorch Jang et al. (Какао), Univnet .

Образцы аудио загружаются!

Примечания

Результаты как Univnet-C16, так и C32 и предварительно обученные веса были загружены.

Для обеих моделей наша реализация соответствует объективным оценкам (PESQ и RMSE) оригинальной статьи.

Ключевые функции

По словам авторов статьи, Univnet получил наилучшие объективные результаты среди недавних нейронных вокодеров на основе GAN (включая Hifi-Gan), а также опережая Hifi-Gan в субъективной оценке. Также его скорость вывода в 1,5 раза быстрее, чем Hifi-Gan.
Этот репозиторий использует ту же функцию мель-спектрограммы, что и официальный Hifi-Gan, который совместим с Nvidia/Tacotron2.
Наши гиперпараметры MEL по умолчанию, как показано ниже, следуют исходной статье.
```
 audio :
  n_mel_channels : 100
  filter_length : 1024
  hop_length : 256 # WARNING: this can't be changed.
  win_length : 1024
  sampling_rate : 24000
  mel_fmin : 0.0
  mel_fmax : 12000.0
```
Вы можете изменить гиперпараметры, чтобы они были совместимы с вашей акустической моделью.

Предварительные условия

Внедрение потребностей после зависимостей.

Python 3.6
Pytorch 1.6.0
Numpy 1.17.4 и Scipy 1.5.4
Установите другие зависимости в требованиях.txt.
```
pip install -r requirements.txt
```

Наборы данных

Подготовка данных

Загрузите набор обучения. Это может быть любой файл WAV с скоростью отбора проб 24 000 Гц. Оригинальная статья использовала Libritts.
- Libritts Train-Clean-360 Split Tar.gz ссылка
- Разанипируйте и поместите его содержимое под datasets/LibriTTS/train-clean-360 .
Если вы хотите использовать файлы WAV с другой скоростью выборки, пожалуйста, отредактируйте файл конфигурации (см. Ниже).

ПРИМЕЧАНИЕ. Мель-спектрограммы, рассчитанные из аудиофайла, будут сохранены как **.mel , а затем загружены с диска впоследствии.

Подготовка метаданных

После формата из Nvidia/Tacotron2 метаданные должны быть отформатированы как:

 path_to_wav|transcript|speaker_id
path_to_wav|transcript|speaker_id
...

Метаданные поезда/валидации для разделения поезда Libritts-Clean-360 и уже подготовлены в datasets/metadata . 5% высказываний поезда-360 были случайным образом отобраны для проверки.

Поскольку эта модель является вокадером, транскрипты не используются во время обучения.

Тренироваться

Подготовка файлов конфигурации

Запустите cp config/default_c32.yaml config/config.yaml , а затем редактировать config.yaml

Запишите корневой путь поезда/валидации в разделе data . Погрузчик данных анализируется список файлов в пути пути.

 data :
  train_dir : ' datasets/ '	# root path of train data (either relative/absoulte path is ok)
  train_meta : ' metadata/libritts_train_clean_360_train.txt '	# relative path of metadata file from train_dir
  val_dir : ' datasets/ '		# root path of validation data
  val_meta : ' metadata/libritts_train_clean_360_val.txt '		# relative path of metadata file from val_dir

Мы предоставляем метаданные по умолчанию для разделения поезда Libritts-Clean-360.

Измените channel_size в gen , чтобы переключаться между Univnet-C16 и C32.

 gen :
  noise_dim : 64
  channel_size : 32 # 32 or 16
  dilations : [1, 3, 9, 27]
  strides : [8, 8, 4]
  lReLU_slope : 0.2

Обучение

python trainer.py -c CONFIG_YAML_FILE -n NAME_OF_THE_RUN

Тенсорборд

tensorboard --logdir logs/

Если вы запускаете Tensorboard на удаленной машине, вы можете открыть страницу Tensorboard, добавив опцию --bind_all .

Вывод

python inference.py -p CHECKPOINT_PATH -i INPUT_MEL_PATH -o OUTPUT_WAV_PATH

Предварительно обученная модель

Вы можете скачать предварительно обученные модели по ссылке Google Drive ниже. Модели были обучены на библиотере-CLEAN-360 SPLO.

Univnet-C16: Google Drive
Univnet-C32: Google Drive

Результаты

См. Образцы аудио на https://mindslab-ai.github.io/univnet/

Мы оценили нашу модель с помощью набора валидации.

Модель	Pesq (↑)	RMSE (↓)	Размер модели
Hifi-Gan v1	3.54	0,423	14.01M
Официальный Univnet-C16	3.59	0,337	4,00 м
Наш Univnet-C16	3.60	0,317	4,00 м
Официальный Univnet-C32	3.70	0,316	14,86 м
Наш Univnet-C32	3.68	0,304	14.87M

Графики потерь Univnet перечислены ниже.

Оранжевые и синие графики указывают C16 и C32 соответственно.

Авторы реализации

Авторы реализации:

Kang-Wook Kim@Mindslab Inc. ([email protected], [email protected])
Wonbin Jung@Mindslab Inc. ([email protected], [email protected])

Участники:

Куан Чен

Особое спасибо

Seungu Han @ Mindslab Inc.
Junhyeok Lee @ Mindslab Inc.
Sang Hoon woo @ mindslab Inc.

Лицензия

Этот код лицензирован по лицензии BSD 3-rain.

Мы ссылались на следующие коды и репозитории.

Общая структура репозитория основана на https://github.com/seungwonpark/melgan.
DataSets/DataLoader.py от https://github.com/nvidia/waveglow (лицензия BSD 3-Clause)
Model/Mpd.py от https://github.com/jik876/hifi-gan (лицензия MIT)
Model/lvcnet.py от https://github.com/zceng/lvcnet (Apache License 2.0)
utils/stft_loss.py # Copyright 2019 Tomoki Hayashi # MIT Лицензия (https://opensource.org/licenses/mit)

Ссылки

Документы

Jang et al. , Univnet: нейронный вокадер с дискриминаторами спектрограммы с несколькими разрешениями для генерации формы волны с высокой точки зрения
Zeng et al. , LVCnet: эффективная сеть моделирования, зависящая от состояния, для генерации формы волны
Kong et al. , Hifi-Gan: Генеративные состязательные сети для эффективного и синтеза речи с высокой точностью

Наборы данных