Загрузка GenerSpeech - Загрузка исходного кода GenerSpeech

GenerSpeech

AI Исходный код

1.0.0

Скачать

Generspeech: к переносу стиля для обобщаемого оборотного текста в речь

Ронгджи Хуанг, И Рен, Цзинлин Лю, Чени Куй, Чжоу Чжао | Университет Чжэцзян, морская лаборатория AI

Реализация Pytorch of Generspeech (Neurips'22): модель текста в речь в направлении переноса стиля с высокой точки зрения с нулевым выстрелом в стиле ood.

Мы предоставляем нашу реализацию и предварительно подготовленные модели в этом хранилище.

Посетите нашу демонстрационную страницу для образцов аудио.

Новости

Декабрь 2022 года: Generspeech (Neurips 2022), выпущенный в Github.

Ключевые функции

Многоуровневая передача стиля для выразительного текста в речь.
Усовершенствованное обобщение модели до ссылки в стиле перераспределения (OOD).

Быстрый начался

Мы приводим пример того, как вы можете генерировать образцы высокой точки зрения, используя Generspeech.

Чтобы попробовать свой собственный набор данных, просто клонируйте это репо в вашей локальной машине, предоставленную NVIDIA GPU + CUDA CUDNN и следуйте нижеуказанному инструкциям.

Поддержка наборов данных и предварительные модели

Вы можете использовать предварительные модели, которые мы предоставляем здесь, и данные здесь. Детали каждой папки таковы в следующем:

Модель	Набор данных (16 кГц)	Описание
Ценерспич	Libritts, ESD	Акузитная модель (конфигурация)
Хиф-Ган	Libritts, ESD	Нейронный вокадер
Энкодер	/	Эмоциональный энкодер

Скоро появятся дополнительные наборы данных.

Зависимости

Подходящая среда Conda под названием generspeech может быть создана и активирована с помощью:

 conda env create -f environment.yaml
conda activate generspeech

Мульти-GPU

По умолчанию эта реализация использует столько же графических процессоров параллельно, сколько возвращается torch.cuda.device_count() . Вы можете указать, какие графические процессоры использовать, установив переменную среды CUDA_DEVICES_AVAILABLE перед запуском учебного модуля.

Вывод (нулевые выстрелы TTS)

Здесь мы предоставляем трубопровод синтеза речи с использованием Generspeech.

Подготовьте Generspeech (акустическая модель): загрузите и поместите контрольную точку на checkpoints/GenerSpeech
Подготовьте Hifi-Gan (Neural Vocoder): загрузите и положите контрольную точку на checkpoints/trainset_hifigan
Подготовьте эмоциональный энкодер : скачать и поместить контрольно -пропускной пункт на checkpoints/Emotion_encoder.pt
Подготовьте набор данных : загрузите и поместите статистические файлы в data/binary/training_set
Подготовьте Path/TO/REGING_AUDIO (16K) : по умолчанию GenersPeech использует ASR + MFA для получения выравнивания текстовой речи из ссылки.

CUDA_VISIBLE_DEVICES= $GPU python inference/GenerSpeech.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --hparams= " text='here we go',ref_audio='assets/0011_001570.wav' "

Сгенерированные файлы WAV сохраняются в infer_out по умолчанию.

Тренируйте свою собственную модель

Подготовка данных и конфигурация

Установите raw_data_dir , processed_data_dir , binary_data_dir в файле конфигурации и загрузить набор данных на raw_data_dir .
Проверьте preprocess_cls в файле конфигурации. Структура набора данных должна следовать процессору preprocess_cls , или вы можете переписать его в соответствии со своим набором данных. Мы предоставляем процессор Libritts в качестве примера в modules/GenerSpeech/config/generspeech.yaml
Загрузите глобальный эмоций эмодера на emotion_encoder_path . Для получения более подробной информации, пожалуйста, обратитесь к этой ветви.
Набор данных препроцесса

 # Preprocess step: unify the file structure.
python data_gen/tts/bin/preprocess.py --config $path /to/config
# Align step: MFA alignment.
python data_gen/tts/bin/train_mfa_align.py --config $path /to/config
# Binarization step: Binarize data for fast IO.
CUDA_VISIBLE_DEVICES= $GPU python data_gen/tts/bin/binarize.py --config $path /to/config

Вы также можете создать набор данных через Natspeech, которая разделяет общую процедуру обработки данных MFA. Мы также предоставляем наш обраболенный набор данных (16 кГц libritts+osd).

Обучение Ценериспич

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --reset

Вывод с использованием generspeech

CUDA_VISIBLE_DEVICES= $GPU python tasks/run.py --config modules/GenerSpeech/config/generspeech.yaml  --exp_name GenerSpeech --infer

Благодарности

В этой реализации используются части кода из следующих репозиторов GitHub: Fastdiff, Natspeech, как описано в нашем коде.

Цитаты

Если вы найдете этот код полезным в своем исследовании, пожалуйста, укажите нашу работу:

 @inproceedings { huanggenerspeech ,
  title = { GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain Text-to-Speech } ,
  author = { Huang, Rongjie and Ren, Yi and Liu, Jinglin and Cui, Chenye and Zhao, Zhou } ,
  booktitle = { Advances in Neural Information Processing Systems }
}

Отказ от ответственности

Любой организации или человеку запрещают использовать любую технологию, упомянутую в этой статье для создания чьей -либо речи без его/ее согласия, включая, помимо прочего, правительственные лидеры, политические деятели и знаменитости. Если вы не соблюдаете этот пункт, вы можете нарушить законы об авторском праве.

Расширять

Дополнительная информация