Скачать Parallel Tacotron2 - Parallel Tacotron2 исходный код скачать

Parallel Tacotron2

AI Исходный код

1.0.0

Скачать

Параллельный такотрон2

Реализация Pytorch Parallel Tacotron 2: неавторегрессивная модель нейронной TTS с дифференцируемой моделированием продолжительности

Обновления

2021.05.25: Only the soft-DTW remains the last hurdle! Следуя совету автора по реализации, я провел несколько тестов на каждом модуле один за другим под контролируемым сигналом продолжительности с потерей L1 (Fastspeech2). До сих пор я могу подтвердить, что все модули, кроме Soft-DTW, работают хорошо следующим образом (синтезированная спектрограмма, спектрограмма GT, остаточное выравнивание и W от изучаемой Upsampling сверху вниз).
Для получения информации, пожалуйста, проверьте последний журнал коммит и раздел «Обновленные проблемы реализации». Кроме того, вы можете найти текущие эксперименты по адресу https://github.com/keonlee9420/fastspeech2/commits/ptaco2.
2021.05.15: реализация выполнена. Значительные проверки на обучение и вывод. Но все же модель не может сходиться.
I'm waiting for your contribution! Пожалуйста, сообщите мне, если вы найдете какие -либо ошибки в моей реализации или какие -либо ценные советы для успешного обучения модели. См. Раздел «Вопросы реализации».

Обучение

Требования

Вы можете установить зависимости Python с
```
pip3 install -r requirements.txt
```
Установите Fairseq (официальный документ, GitHub), чтобы использовать LConvBlock . Пожалуйста, проверьте #5, чтобы решить любую проблему при установке.

Наборы данных

Поддерживаемые наборы данных:

LJSPEECH: Английский набор данных с одним дивиксером состоит из 13100 коротких аудио-клипов женского поступления, чтения спикеров от 7 не художественных книг, в общей сложности примерно 24 часа.
(будет добавлено больше)

Предварительная обработка

После загрузки наборов данных установите corpus_path в preprocess.yaml и запустите скрипт подготовки:

 python3 prepare_data.py config/LJSpeech/preprocess.yaml

Затем запустите сценарий предварительной обработки:

 python3 preprocess.py config/LJSpeech/preprocess.yaml

Обучение

Тренировать свою модель с

 python3 train.py -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Модель еще не может сходиться. Я отлаживаю, но это было бы повышено, если ваш потрясающий вклад будет готов!

Вывод

Для единого вывода, запустите

 python3 synthesize.py --text "YOUR_DESIRED_TEXT" --restore_step 900000 --mode single -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

Сгенерированные высказывания будут сохранены в output/result/ .

Партийный вывод

Пакетный вывод также поддерживается, попробуйте

 python3 synthesize.py --source preprocessed_data/LJSpeech/val.txt --restore_step 900000 --mode batch -p config/LJSpeech/preprocess.yaml -m config/LJSpeech/model.yaml -t config/LJSpeech/train.yaml

синтезировать все высказывания в preprocessed_data/LJSpeech/val.txt .

Тенсорборд

Использовать

 tensorboard --logdir output/log/LJSpeech

Подавать в Tensorboard на вашем местном хосте.

Проблемы реализации

В целом, нормализация или активация, которая не предложена в исходной статье, адекватно расположена для предотвращения значения NAN (градиент) на прямом и обратном расчетах. (Нан указывает, что в сети что -то не так)

Текстовый энкодер

Используйте FFTBlock of Fastspeech2 для блока трансформатора текстового энкодера.
Используйте отсечение 0.2 для ConvBlock текстового энкодера.
Чтобы восстановить «проприетарное двигатель нормализации»,
- Примените ту же нормализацию текста, что и в Fastspeech2.
- Реализовать функцию grapheme_to_phoneme . (См. ./Text/ init ).

Остаточный энкодер

Используйте 80 channels Mel-Spectrogrom вместо 128-bin .
Регулярное синусоидальное позиционное встраивание используется в уровне кадра вместо комбинаций трех позиционных встроений в параллельном такотроне. Поскольку модель полностью зависит от неконтролируемого обучения для этой позиции, этот выбор может быть причиной сборов с конверсия модели.

Продолжительность предиктора и обработана

Используйте nn.SiLU() для активации SWISH.
При получении W и C операция конкатенации применяется между S , E и V после вещания V-домен (T-домен) V

Декодер

Используйте LConvBlock и регулярное синусоидальное позиционное внедрение.
Итеративная мела-спектрограмма проецируется линейным слоем.
Примените nn.Tanh() к каждому выходу LConvBLock (после шаблона активации части декодера в Fastspeech2).

Потеря

Используйте оптимизацию и планировщик Fastspeech2 (то есть от внимания, все, что вам нужно, как описано в оригинальной статье).
База на Pytorch-softdtw-cuda (post) для Soft-DTW.
1. Реализируйте настроенный Soft-DTW в model/soft_dtw_cuda.py , отражая рекурсию, предложенную в исходной статье.
2. В исходном Soft-DTW окончательная потеря не предполагается, и поэтому вычисляется только E Но используется в качестве функции убытки, якобианский продукт добавляется для возврата целевого производного от R wrt input X .
3. В настоящее время максимальный размер партии составляет 8 в 24-г-на графическом процессоре (Titan RTX) из-за проблемы сложности пространства при потери Soft-DTW.
  - В оригинальной статье была реализована и использована пользовательская дифференцируемая диагональная операция и использована для решения сложности O (T^2), но эта часть еще не была исследована в текущей реализации.

Цитирование

 @misc{lee2021parallel_tacotron2,
  author = {Lee, Keon},
  title = {Parallel-Tacotron2},
  year = {2021},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {url{https://github.com/keonlee9420/Parallel-Tacotron2}}
}

Ссылки

Ming024's Fastspeech2 (позже 2021.02.26 ver.)
Параллельный такотрон: неавторегрессивный и контролируемый ТТ
Parallel Tacotron 2: неавторегрессивная модель нейронной TTS с дифференцируемой продолжительностью моделирования

Расширять

Дополнительная информация