
Блок-схема FCL-TACO2, где декодер генерирует мель-спектрограммы в режиме AR в каждой фонеме и используется для всех фонем.
Скачать ljspeech
Раскрыть скачание ljspeech-1.1.tar.bz2 to /xx/ljspeech-1.1
Получите информацию о вынуждении выравнивания, используя Montreal Arrence Aligner Tool. Или вы можете скачать наши результаты выравнивания, затем распаковать до /xx /textgrid
Предварительно обработать набор данных для извлечения мель-спектрограмм, продолжительность фонемы, шага, энергия и последовательность фонем по:
python preprocessing.py --data-root /xx/LJSpeech-1.1 --textgrid-root /xx/TextGrid
Учительский учитель модель FCL-Taco2-T:
./teacher_model_training.sh
Обучение студенческой модели FCL-TACO2-S:
./student_model_training.sh
Параллельно волновая подготовка вокадера: следуйте инструкциям здесь. Вы также можете загрузить предварительно обученный вокадер PWG и поместить модель PWG в каталог «Vocoder».
Оценка FCL-Taco2-T:
./inference_teacher.sh
FCL-TACO2-S Оценка:
./inference_student.sh
Если код используется в вашем исследовании, пожалуйста, смотрите наш репо и цитируйте нашу статью:
@inproceedings{wang2021fcl,
title={Fcl-Taco2: Towards Fast, Controllable and Lightweight Text-to-Speech Synthesis},
author={Wang, Disong and Deng, Liqun and Zhang, Yang and Zheng, Nianzu and Yeung, Yu Ting and Chen, Xiao and Liu, Xunying and Meng, Helen},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={5714--5718},
year={2021},
organization={IEEE}
}