FCL taco2
1.0.0

Decoder가 각 음소 내에서 AR 모드에서 Mel-spectrogram을 생성하고 모든 음소에 대해 공유되는 FCL-TACO2의 블록 다이어그램.
ljspeech를 다운로드하십시오
포장 풀린 ljspeech-1.1.tar.bz2 to /xx/ljspeech-1.1
몬트리올 강제 조정기 도구를 사용하여 강제 정렬 정보를 얻으십시오. 또는 정렬 결과를 다운로드 한 다음 /xx /textgrid로 포장을 풀 수 있습니다.
멜 스피어 그램, 음소 기간, 피치, 에너지 및 음소 시퀀스를 추출하려면 데이터 세트를 전처리합니다.
python preprocessing.py --data-root /xx/LJSpeech-1.1 --textgrid-root /xx/TextGrid
교육 교사 모델 FCL-TACO2-T :
./teacher_model_training.sh
교육 학생 모델 FCL-TACO2-S :
./student_model_training.sh
병렬 와이브 간 보코더 훈련 : 여기에서 지침을 따르십시오. 미리 훈련 된 PWG 보코더를 다운로드하고 PWG 모델을 디렉토리 "보코더"아래에 넣을 수도 있습니다.
FCL-TACO2-T 평가 :
./inference_teacher.sh
FCL-TACO2-S 평가 :
./inference_student.sh
코드가 귀하의 연구에 사용되면, 우리의 리포지토리를 주연시키고 논문을 인용하십시오.
@inproceedings{wang2021fcl,
title={Fcl-Taco2: Towards Fast, Controllable and Lightweight Text-to-Speech Synthesis},
author={Wang, Disong and Deng, Liqun and Zhang, Yang and Zheng, Nianzu and Yeung, Yu Ting and Chen, Xiao and Liu, Xunying and Meng, Helen},
booktitle={ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)},
pages={5714--5718},
year={2021},
organization={IEEE}
}