Скачать wavenet_vocoder - wavenet_vocoder исходный код скачать

wavenet_vocoder

Питон

v0.1.1 release

Скачать

Wavenet Vocoder

Примечание : это версия разработки. Если вам нужна стабильная версия, пожалуйста, проверьте V0.1.1.

Цель хранилища состоит в том, чтобы обеспечить реализацию вокадера Wavenet, который может генерировать высококачественные образцы необработанных речевых речев, обусловленных лингвистическими или акустическими особенностями.

Образцы аудио доступны по адресу https://r9y9.github.io/wavenet_vocoder/.

Новости

2019/10/31: репозиторий был адаптирован к ESPNet. Английские, китайские и японские образцы и предварительные модели доступны там. Для получения подробной информации см.

Онлайн демо

Записная книжка, которая должна быть выполнена на https://colab.research.google.com доступен:

Tacotron2: демонстрация текста в речь на основе Wavenet

Основные моменты

Сосредоточьтесь на местной и глобальной кондиционировании Wavenet, что важно для Vocoder.
16-битное необработанное звуковое моделирование с помощью смесей распределений: поддерживается смесь логистики (моль), смесь гауссов и отдельные гауссовые распределения.
Различные образцы аудио и предварительно обученные модели
Быстрый вывод путем кэширования промежуточных состояний в сверлости. Подобно arxiv: 1611.09482
Интеграция с ESPNet (https://github.com/espnet/espnet)

Предварительно обученные модели

Примечание . Это сама по себе модель текста в речь (TTS). С предварительно обученной моделью, предоставленной здесь, вы можете синтезировать форму волны с учетом спектрограммы MEL , а не сырого текста. Вам понадобится модель прогнозирования MEL-спектрограммы (например, Tacotron2), чтобы использовать предварительно обученные модели для TTS.

Примечание . Что касается предварительной модели для LJSPEECH, модель была точно настроена несколько раз и обучалась для более чем 1000 тысяч шагов. Пожалуйста, обратитесь к вопросам ( #1, #75, #45), чтобы узнать, как была обучена модель.

Модельный URL	Данные	Hyper Params URL	Git commit	Шаги
связь	LJSPEECH	связь	2092a64	1000K ~ шаги
связь	CMU Арктика	связь	B1A1076	740K шагов

Чтобы использовать предварительно обученные модели, сначала познакомитесь с конкретным коммитом GIT, отмеченным выше. т.е.

 git checkout ${commit_hash}

А затем следует за разделом «Синтезировать из контрольной точки» в ReadMe. Обратите внимание, что старая версия Synthesis.py не может принять параметр --preset=<json> , и вам, возможно, придется изменить hparams.py в соответствии с предустановленным (JSON) файлом.

Вы можете попробовать, например:

 # Assuming you have downloaded LJSpeech-1.1 at ~/data/LJSpeech-1.1
# pretrained model (20180510_mixture_lj_checkpoint_step000320000_ema.pth)
# hparams (20180510_mixture_lj_checkpoint_step000320000_ema.json)
git checkout 2092a64
python preprocess.py ljspeech ~/data/LJSpeech-1.1 ./data/ljspeech 
  --preset=20180510_mixture_lj_checkpoint_step000320000_ema.json
python synthesis.py --preset=20180510_mixture_lj_checkpoint_step000320000_ema.json 
  --conditional=./data/ljspeech/ljspeech-mel-00001.npy 
  20180510_mixture_lj_checkpoint_step000320000_ema.pth 
  generated

Вы можете найти сгенерированный файл WAV в generated каталоге. Интересно, как это работает? Тогда посмотрите на код :)

Структура репозитория

Репозиторий состоит из 1) библиотеки Pytorch, 2) инструментов командной строки и 3) рецептов в стиле ESPNet. Первый - это библиотека Pytorch для обеспечения функциональности Wavanet. Второй - это набор инструментов для запуска обучения/вывода Wavenet, обработки данных и т. Д. Пожалуйста, посмотрите на них в зависимости от вашей цели. Если вы хотите построить свой Wavenet в своем наборе данных (я думаю, это наиболее вероятный случай), рецепт - это путь для вас.

Требования

Питон 3
Cuda> = 8,0
Pytorch> = v0.4.0

Установка

 git clone https://github.com/r9y9/wavenet_vocoder && cd wavenet_vocoder
pip install -e .

Если вам нужна только часть библиотеки, вы можете установить ее из PYPI:

 pip install wavenet_vocoder

Начиная

Рецепты в стиле Калди

Репозиторий предоставляет рецепты в стиле Кальди, чтобы сделать эксперименты воспроизводимыми и легко управляемыми. Доступные рецепты следующие:

mulaw256 : Wavenet, который использует категорическое распределение вывода. Вход-8-битная квантовая форма волны Mulaw.
mol : смесь логистики (моль) волновой. Вход-16-битный сырой аудио.
gaussian : одинокий гауссовый волновый (он же учитель Wavenet of Clarinet). Вход-16-битный сырой аудио.

Весь рецепт имеет run.sh , который определяет все шаги для выполнения обучения/вывода Wavenet, включая предварительную обработку данных. Пожалуйста, смотрите Run.sh в каталоге EGS для деталей.

Примечание : Глобальная кондиционирование для многопрофильных волновых волн не поддерживается в приведенных выше рецептах (хотя и не должно быть трудно реализовать). Пожалуйста, проверьте v0.1.12 для этой функции, или, если вам действительно нужна функция, поднимите проблему.

Примените рецепт к своему набору данных

Рецепты предназначены для того, чтобы быть общими, чтобы можно было использовать их для любого набора данных. Чтобы применить рецепты к своему собственному набору данных, вам нужно поместить все файлы WAV в один плоский каталог. т.е.

 > tree -L 1 ~/data/LJSpeech-1.1/wavs/ | head
/Users/ryuichi/data/LJSpeech-1.1/wavs/
├── LJ001-0001.wav
├── LJ001-0002.wav
├── LJ001-0003.wav
├── LJ001-0004.wav
├── LJ001-0005.wav
├── LJ001-0006.wav
├── LJ001-0007.wav
├── LJ001-0008.wav
├── LJ001-0009.wav

Вот и все! Последним шагом является изменение db_root в run.sh или дать db_root в качестве командной строки Argment для run.sh.

 ./run.sh --stage 0 --stop-stage 0 --db-root ~/data/LJSpeech-1.1/wavs/

Шаг за шагом

Рецепт обычно состоит из нескольких шагов. Настоятельно рекомендуется запустить рецепт шаг за шагом, чтобы понять, как он работает в первый раз. Для этого укажите stage и stop_stage следующим образом:

 ./run.sh --stage 0 --stop-stage 0

 ./run.sh --stage 1 --stop-stage 1

 ./run.sh --stage 2 --stop-stage 2

В типичных ситуациях вам необходимо указать устройства CUDA, объясняющие, особенно для этапа обучения.

 CUDA_VISIBLE_DEVICES="0,1" ./run.sh --stage 2 --stop-stage 2

Документы для инструментов командной строки

Инструменты командной строки записываются с DoCopt. Посмотрите на каждый Docstring для основного использования.

tojson.py

Сбросьте гиперпараметры в файл JSON.

Использование:

 python tojson.py --hparams="parameters you want to override" <output_json_path>

preprocess.py

Использование:

 python preprocess.py wavallin ${dataset_path} ${out_dir} --preset=<json>

Train.py

ПРИМЕЧАНИЕ. Для обучения в нескольких графических процессорах у вас лучше убедиться, что batch_size % num_gpu == 0

Использование:

 python train.py --dump-root=${dump-root} --preset=<json>
  --hparams="parameters you want to override"

Оценка.py

Учитывая Directoy, который содержит локальные функции кондиционирования, синтезируйте для них формы волны.

Использование:

 python evaluate.py ${dump_root} ${checkpoint} ${output_dir} --dump-root="data location"
    --preset=<json> --hparams="parameters you want to override"

Параметры:

--num-utterances=<N> : количество высказываний, которые должны быть сгенерированы. Если не указано, генерируйте все высказывания. Это полезно для отладки.

Synthesis.py

Примечание : сейчас это, вероятно, не работает. Пожалуйста, используйте evaluate.py вместо этого.

Синтезизация формы сигнала дает функцию кондиционирования.

Использование:

 python synthesis.py ${checkpoint_path} ${output_dir} --preset=<json> --hparams="parameters you want to override"

Важные варианты:

--conditional=<path> : (требуется для условного волны) Путь локальных условных признаков (.npy). Если это указано, количество временных шагов для генерации определяется размером условной функции.

Сценарии обучения

Обучение Unditional Wavenet

Примечание : сейчас это, вероятно, не работает. Пожалуйста, проверьте v0.1.1 для рабочей версии.

 python train.py --dump-root=./data/cmu_arctic/
    --hparams="cin_channels=-1,gin_channels=-1"

Вы должны отключить глобальную и локальную кондиционирование, установив gin_channels и cin_channels отрицательных значений.

Обучение Wavenet кондиционировано на мель-спектрограмме

 python train.py --dump-root=./data/cmu_arctic/ --speaker-id=0 
    --hparams="cin_channels=80,gin_channels=-1"

Обучение Wavenet обусловлено на мель-спектрограмме и встраивании динамиков

Примечание : сейчас это, вероятно, не работает. Пожалуйста, проверьте v0.1.1 для рабочей версии.

 python train.py --dump-root=./data/cmu_arctic/ 
    --hparams="cin_channels=80,gin_channels=16,n_speakers=7"

Разное

Мониторинг с помощью тензора

Журналы сброшены в каталог ./log по умолчанию. Вы можете отслеживать журналы с помощью Tensorboard:

 tensorboard --logdir=log

Список документов, которые использовали репозиторий

Сравнение недавних нейронных голосователей для реконструкции речевого сигнала https://www.isca-speech.org/archive/ssw_2019/abstracts/ssw10_o_1-2.html
Волновой склад: генеративная сеть на основе потока для синтеза речи https://arxiv.org/abs/1811.00002
WaveCyclegan2: Нейронная пост-фильтр по времени для формирования речевой формы https://arxiv.org/abs/1904.02892
Параметрический ресинтез с нейронными вокодерами https://arxiv.org/abs/1906.06762
Смешивание представления о синтезе https://arxiv.org/abs/1811.07240
Единая нейронная архитектура для инструментальных аудио задач https://arxiv.org/abs/1903.00142
ESPNet-TTS: унифицированный, воспроизводимый и интегрируемый с открытым исходным кодом.

Большое спасибо!! Если вы найдете новый, пожалуйста, отправьте PR.

Спонсоры

https://github.com/echelon

Ссылки

Аарон Ван Ден Оорд, Сандер Дилиман, Хейга Зен и др., «Wavenet: генеративная модель для необработанного аудио», Arxiv: 1609.03499, сентябрь 2016 года.
Аарон Ван Ден Оорд, Язхе Ли, Игорь Бабушкин и др., «Параллельная волна: быстрый синтез речи с высокой точки зрения», Arxiv: 1711.10433, ноябрь 2017 года.
Tamamori, Akira, et al. «Ободящий-зависимый Wavenet Vocoder». Материалы межспыта. 2017.
Джонатан Шен, Руминг Панг, Рон Дж. Вайс и др., «Природный синтез TTS путем кондиционирования Wavenet на предсказаниях спектрограммы MEL», Arxiv: 1712.05884, декабрь 2017 года.
Вэй Пин, Кайнан Пенг, Эндрю Гибински и др., «Глубокий голос 3: 2000-дюймовый нейронный текст в речь», Arxiv: 1710.07654, октябрь 2017 года.
Том Ле Пейн, Пуя Хоррами, Шию Чанг и др., «Алгоритм генерации Fast Wavenet», Arxiv: 1611.09482, ноябрь 2016 г.
Ye Jia, Yu Zhang, Ron J. Weiss, Quan Wang, Jonathan Shen, Fei Ren, Zhifeng Chen, Patrick Nguyen, Ruoming Pang, Ignacio Lopez Moreno, Yonghui Wu, et al.

Расширять

Дополнительная информация

Версия v0.1.1 release
Тип Питон
Время обновления 2025-07-11
размер 101.28KB
От Github

Связанные приложения

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Dog_Fox_Bunny

2022-08-01
Бесплатная версия механизма анализа данных Lihua 3.0_search_navigation_collection_public Opinion_ranking_api

2022-06-28