Загрузка FastSpeech2 - Загрузка исходного кода FastSpeech2

FastSpeech2

AI Исходный код

1.0.0

Скачать

Fastspeech 2

Неофициальная внедрение Pytorch of Fastspeech 2: Быстрый и высококачественный сквозной текст к речи . Этот репо использует реализацию Fastspeech ESPnet в качестве базы. В этой реализации я попытался воспроизвести точные детали бумаги, но все же некоторая модификация, необходимая для лучшей модели, это открыто для любого предложения и улучшения. В этом репо используется предварительная обработка NVIDIA Tacotron 2 для предварительной обработки аудио и Мелгана в качестве Vocoder.

Демонстрация:

Требования :

Весь код, написанный в Python 3.6.2 .

Установите Pytorch

Перед установкой Pytorch, пожалуйста, проверьте свою версию CUDA, выполнив следующую команду: nvcc --version

 pip install torch torchvision

В этом репо я использовал pytorch 1.6.0 для функции torch.bucketize , которая не присутствует в предыдущих версиях Pytorch.

Установка других требований:

 pip install -r requirements.txt

Для использования Tensorboard установить tensorboard version 1.14.0 Seperatly с поддерживаемым tensorflow (1.14.0)

Для предварительной обработки:

Папка filelists содержит MFA (MotReal Force Aligner), обработанные файлы набора данных LJSPEECH, поэтому вам не нужно выравнивать текст с аудио (для продолжительности извлечения) для набора данных LJSPEECH. Для другого набора данных следуйте инструкции здесь. Для другого предварительного обработки выполнения следующей команды:

 python .nvidia_preprocessing.py -d path_of_wavs

За поиск мин и максимума F0 и энергии

 python .compute_statistics.py

Обновите следующее в hparams.py Min и Max of F0 и Energy

 p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy

Для обучения

 python train_fastspeech.py --outdir etc -c configs/default.yaml -n "name"

Для вывода

В настоящее время поддерживается только синтез на основе фонемы.

 python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1ts_version2_fastspeech_fe9a2c7_7k_steps.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."

Для экспорта TorchScript

 python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc

Контрольная точка и образцы:

Контрольная точка найдите здесь
Для образцов проверьте папку sample .

Тенсорборд

Обучение :
Тенсорборд
Валидация:

Примечание

Кодирование этого репо примерно сделано только для того, чтобы перепроизводить статью и экспериментальные цели. Нужна очистка кода и Opyimization для лучшего использования.
В настоящее время этот репо дает звук хорошего качества, но все же он находится в WIP, необходимо много улучшений.
Кривая потерь для F0 довольно высока.
Я использую необработанную F0 и энергию для обучения модели, но мы также можем использовать нормализовать F0 и энергию для стабильной тренировки.
Использование Postnet для лучшего качества звука.
Для получения более полного и конечного клонирования голоса или текста на речевой (TTS) инструментарии ⚡, пожалуйста, посетите технологии DeepSync.