Скачать MSMC TTS - MSMC TTS Source Code Скачать

MSMC TTS

AI Исходный код

1.0.0

Скачать

MSMC-TTS: многоэтапный многоэтапный TTS TTS

Официальная реализация системы документов MSMC-TTS

Многоцененный многоэтапный подход VQ-VAE для высокопроизводительных нейронных ТТ
На пути к высококачественным нейронным ТТ для языков с низким ресурсом путем изучения компактного представления
QS-TTS: к полупрозрачному синтезу текста в речь посредством вектора-квалифицированного самоотверженного речевого представления обучение

Последний MSMC-TTS (MSMC-TTS-V2) оптимизируется с помощью AutoEncoder на основе MSMC-VQ-GN, объединяющего MSMC-VQ-VAE и Hifigan. Многостадийный предиктор все еще применяется в качестве акустической модели для прогнозирования MSMCR для синтеза TTS. аватар

Новости

[2024.04.10] (в процессе) реализация QS-TTS доступна в примерах/csmsc/configs

[2022.10.20] Мы выпускаем последнюю версию MSMC-TTS (MSMC-TTS-V2) на основе MSMC-VQ-GAN. Пожалуйста, обратитесь к нашей последней статье «В отношении высококачественных нейронных ТТ для языков с низким разрешением путем обучения компактному представлению»

[2022.10.18] Мы выпустим код всех версий MSMC-TTS в этом репо. И любой, кто интересуется этой работой, может присоединиться к нам, чтобы изучить более полезные речевые представления о синтезе речи.

[2022.9.22] «Многоцененный многоэтапный подход VQ-VAE для высокопроизводительных нейронных TTS опубликован в межспике 2022.

Использование

 # Install
pip -r requirements.txt

# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis

# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts

Советы

Помогите вам лучше обучить свои модели!

MSMC-VQ-GAN

Будьте осторожны с компактностью вашего представления. Для стандартных TTS с одним дивикере вы можете попробовать 2-4 головы, которые каждая голова может иметь 64-256 кодовых слов.
Пожалуйста, используйте меньше кодовых слов, если ваш размер партии слишком мал, в противном случае размер кадра партии недостаточен для поддержки обновления динамического кода.
Вы можете изменить вес потери энкодера, если обнаружите, что некоторые этапы в вашем MSMC-VQ-Gan ничего не изучают.

Многоэтапный предиктор

Потеря триплета может улучшить выразительность ТТ, но также может ухудшить плавность. Вы можете попробовать разные веса потери триплета, такие как 0, 0,01, 0,1, 1, чтобы найти наиболее сбалансированную производительность.
Для наборов данных с низким разрешением, пожалуйста, используйте более мелкие модели, чтобы избежать перезагрузки. Ранняя стоп также является полезным трюком.

Цитаты

@inproceedings{guo2022msmc,
  title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
  author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
  booktitle={Proc. INTERSPEECH},
  year={2022}
}