Скачать SyntaSpeech - Скачать SyntaSpeech исходный код

SyntaSpeech

AI Исходный код

Pretrained Models for LJ, Biaobei, and LibriTTS.

Скачать

Syntaspeech: Синтаксис-адвокат генеративного состязательного текста в речь

| | | 中文文档

Этот репозиторий является официальной внедрением Pytorch нашей статьи IJCAI-2022, в которой мы предлагаем Syntaspeech для синтаксического неавторегрессивного текста в речь.

Наш Syntaspeech построен на основе Portaspeech (Neurips 2021) с тремя новыми функциями:

Мы предлагаем строитель синтаксического графика (раздел 3.1) и синтаксический графический энкодер (с. 3.2) , который, как оказалось, является эффективной единицей для извлечения синтаксических особенностей для улучшения моделирования просодии и точности продолжительности модели TTS.
Мы вводим многослойные тренировки состязания (раздел 3.3) , которая может заменить пост-сеть на основе потока в Portaspeech, ускоряя время вывода и улучшая естественность звука.
Мы поддерживаем три набора данных: LJSPEECH (набор данных по английскому языку с одним дивиксером), Biobei (китайский набор данных с одним ди-дивиксером) и Libritts (многопрофильный набор данных английского языка).

Среда

conda create -n synta python=3.7
condac activate synta
pip install -U pip
pip install Cython numpy==1.19.1
pip install torch==1.9.0 
pip install -r requirements.txt
# install dgl for graph neural network, dgl-cu102 supports rtx2080, dgl-cu113 support rtx3090
pip install dgl-cu102 dglgo -f https://data.dgl.ai/wheels/repo.html 
sudo apt install -y sox libsox-fmt-mp3
bash mfa_usr/install_mfa.sh # install force alignment tools

Запустите Syntaspeech!

Пожалуйста, выполните следующие шаги, чтобы запустить это репо.

1. Подготовка

Подготовка данных

Вы можете напрямую использовать наши бинаризованные наборы данных для LJSPEECH и Biobei. Загрузите их и разкачивайте их в data/binary/ папку.

Что касается Libritts, вы можете загрузить необработанные наборы данных и обработать их с нашими модулями data_gen . Подробные инструкции можно найти в DOSC/PREPARE_DATA.

Подготовка вокалу

Мы предоставляем предварительно обученную модель Vocoders для трех наборов данных. В частности, Hifi-Gan для LJSPEECH и Biobei, ParallelWavegan для Libritts. Загрузите и разкачивайте их в checkpoints/ папку.

2. Пример обучения

Затем вы можете обучить Syntaspeech в трех наборах данных.

 cd < the root_dir of your SyntaSpeech folder >
export PYTHONPATH=./
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset # training in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset # training in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset # training in LibriTTS

3. Тенсорборд

tensorboard --logdir=checkpoints/lj_synta
tensorboard --logdir=checkpoints/biaobei_synta
tensorboard --logdir=checkpoints/libritts_synta

4. Пример вывода

CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/lj/synta.yaml --exp_name lj_synta --reset --infer # inference in LJSpeech
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/biaobei/synta.yaml --exp_name biaobei_synta --reset --infer # inference in Biaobei
CUDA_VISIBLE_DEVICES=0 python tasks/run.py --config egs/tts/libritts/synta.yaml --exp_name libritts_synta --reset ---infer # inference in LibriTTS

Аудио Демо

Образцы аудио в бумаге можно найти на нашей демонстрационной странице.

Мы также предоставляем демо -страницу HuggingFace для LJSPEECH. Попробуйте свои интересные предложения там!

Цитирование

 @article{ye2022syntaspeech,
  title={SyntaSpeech: Syntax-Aware Generative Adversarial Text-to-Speech},
  author={Ye, Zhenhui and Zhao, Zhou and Ren, Yi and Wu, Fei},
  journal={arXiv preprint arXiv:2204.11792},
  year={2022}
}