FlashSpeech
1.0.0
Реализация Flashspeech. Для всех деталей ознакомьтесь с нашей статьей, принятой в ACM MM 2024: Flashspeech: эффективный синтез речи с нулевым выстрелом.
bash env.shaccelerate Amphion на lightning , потому что я столкнулся с аналогичными вопросами (связанная проблема). Тренировка с lightning быстрее. ns2dataset.py на основе ваших данных.bash egs/tts/NaturalSpeech2/run_train.shВажные примечания :
Выберите конфигурацию :
***_s1 , либо ***_s2 файлы конфигурации на основе этапа обучения.Изменить кодек модели :
models/tts/naturalspeech2/flashspeech.py , обновите кодек на свой собственный.self.latent_norm , чтобы нормализовать кодек, скрытый к стандартному отклонению. (Этот шаг имеет решающее значение для обучения модели согласованности.)Установка 2 этапа :
models/tts/naturalspeech2/flashspeech_trainer_stage2.py установите начальные веса, полученные из тренировок 1 стадии.Развитие 3 этапа 3 :
Далее организуйте структуру проекта и заполните оставшийся код.
Особая благодарность Amphion , поскольку наша кодовая база в основном заимствована у Amphion.
Спасибо за использование Flashspeech!