Robust_Fine_Grained_Prosody_Control Скачать - Robust_Fine_Grained_Prosody

Robust_Fine_Grained_Prosody_Control

AI Исходный код

1.0.0

Скачать

Надежный и мелкозернистый контроль просодии в отношении сквозного синтеза речи (с волновым замком)

Внедрение Pytorch надежного и мелкозернистого контроля просодий сквозного речевого синтеза (неофициально)

Эта реализация использует набор данных Libritts.

Примечания

Dev Branch: Tacotron2 с Multipeaker (динамик). Информация о динамике используется только модулем декодера, а модуль внимания не видит ничего из этого (как намерение авторов).
Text_side Branch: реализация модели управления просодии на стороне текста.
Контроль просодии и просодия речевой стороны не реализованы в текущей версии, но вы можете просто добавить их сверху вышеупомянутых ветвей.

Предварительные условия

Nvidia gpu + cuda cudnn

Настраивать

Скачать и извлечь набор данных Libritts
Клонировать это репо: git clone https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control.git
CD в этом репо: cd Robust_Fine_Grained_Prosody_Control
Инициализировать подмодуль: git submodule init; git submodule update
ОБНОВЛЕНИЕ sed -i -- 's,/home/keon/speech-datasets/LibriTTS_preprocessed/train-clean-100/,your_libritts_dataset_folder/,g' filelists/*.txt
- В качестве альтернативы, установите load_mel_from_disk=True в hparams.py и обновление пути мель-спектрограммы
Установите Pytorch 1.0
Установить вершину
Установите требования Python или создать изображение Docker
- Установите требования Python: pip install -r requirements.txt

Обучение

python train.py --output_directory=outdir --log_directory=logdir
(Необязательно) tensorboard --logdir=outdir/logdir

Обучение с использованием предварительно обученной модели

(TBD)

Мульти-GPU (распределенная) и автоматическая смешанная точная тренировка

Не поддерживается в текущей реализации.

Вывод

ОДИН -образец: python inference.py -c checkpoint/path -r reference_audio/wav/path -t "synthesize text"
Multi Samples: python inference_all.py -c checkpoint/path -r reference_audios/dir/path

NB При выполнении мель-спектрограммы с синтезом аудио, убедитесь, что Tacotron 2 и Mel Decoder были обучены на одном и том же представлении Mel-Spectrogram.

Цитирование

 @misc{lee2021robust_fine_grained_prosody_control,
  author = {Lee, Keon},
  title = {Robust_Fine_Grained_Prosody_Control},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Robust_Fine_Grained_Prosody_Control}}
}