Скачать FastPitchFormant - Загрузка исходного кода FastPitchFormant

FastPitchFormant

AI Исходный код

v1.0.0

Скачать

FastPitchFormant - реализация Pytorch

Реализация Pytorch FastPitchFormant: разлагаемое моделирование на основе исходного фильтра для синтеза речи.

QuickStart

Зависимости

Вы можете установить зависимости Python с

 pip3 install -r requirements.txt

Вывод

Вы должны загрузить предварительно подготовленные модели и поместить их в output/ckpt/LJSpeech/ .

Для английских однополосных TTS, бегите

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 600000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Сгенерированные высказывания будут помещены в output/result/ .

Партийный вывод

Пакетный вывод также поддерживается, попробуйте

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --restore_step 600000 --mode batch -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

синтезировать все высказывания в preprocessed_data/LJSpeech/val.txt

Управляемость

Скорость шага/разговора синтезированных высказываний может контролироваться путем указания желаемых соотношений шага/энергии/продолжительности. Например, можно увеличить скорость разговора на 20 % и уменьшить шаг на 20 % на

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 600000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml --duration_control 0.8 --pitch_control 0.8

Обучение

Наборы данных

Поддерживаемые наборы данных

LJSPEECH: Набор данных по английскому языку с одним ди-дивигратором состоит из 13100 коротких аудиоклипов женских ораторов, чтения спикеров из 7 не художественных книг, в общей сложности примерно 24 часа.

Предварительная обработка

Сначала беги

 python3 prepare_align.py config/LJSpeech/preprocess.yaml

для некоторых приготовлений.

Как описано в статье, Montreal принудительный Aligner (MFA) используется для получения выравнивания между высказываниями и последовательностями фонем. Выравнивания для наборов данных LJSPEECH представлены здесь. Вы должны разаржать файлы в preprocessed_data/LJSpeech/TextGrid/ .

После этого запустите сценарий предварительной обработки

 python3 preprocess.py config/LJSpeech/preprocess.yaml

С другой стороны, вы можете выровнять корпус самостоятельно. Загрузите официальный пакет MFA и запустите

 ./montreal-forced-aligner/bin/mfa_align raw_data/LJSpeech/ lexicon/librispeech-lexicon.txt english preprocessed_data/LJSpeech

или

 ./montreal-forced-aligner/bin/mfa_train_and_align raw_data/LJSpeech/ lexicon/librispeech-lexicon.txt preprocessed_data/LJSpeech

Чтобы выровнять корпус, а затем запустить сценарий предварительной обработки.

 python3 preprocess.py config/LJSpeech/preprocess.yaml

Обучение

Тренировать свою модель с

 python3 train.py -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Тенсорборд

Использовать

 tensorboard --logdir output/log/LJSpeech

Подавать в Tensorboard на вашем местном хосте. Кривые потерь, синтезированные мель-спектрограммы и аудио показаны.

Проблемы реализации

Текущая реализация и предварительно обученная модель используют нормализованные значения шага. В моих экспериментах управляемость тона не динамична с предлагаемыми сдвигами шага. Вы можете установить normalization в False In ./config/LJSpeech/preprocess.yaml , когда вам нужно увидеть больше широкого диапазона высоты тона, как описана статья.
Обратите внимание, что статья обучила модель до 1000 тысяч, тогда как текущая реализация предоставляет 600K предварительно обученную модель.
Используйте Hifi-Gan вместо Vocgan для вокалирования.

Цитирование

 @misc{lee2021fastpitchformant,
  author = {Lee, Keon},
  title = {FastPitchFormant},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/FastPitchFormant}}
}