comospeech의 구현. 모든 세부 사항은 ACM MM 2023 : Comospeech : 일관성 모델을 통한 한 단계 연설 및 노래 음성 합성에 수락 된 논문을 확인하십시오.
저자 : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.
2024-04-26
2023-12-01
2023-11-30
2023-10-21
데모 페이지 : 링크.
DDPMS (Denoising 확산 확률 모델)는 언어 합성에 대한 유망한 성능을 보여 주었다. 그러나 높은 샘플 품질을 달성하려면 많은 수의 반복 단계가 필요하며, 이는 추론 속도를 제한합니다. 샘플 품질을 유지하면서 샘플링 속도를 높이는 것은 어려운 작업이되었습니다. 이 논문에서, 우리는 높은 오디오 품질을 달성하면서 단일 확산 샘플링 단계를 통해 음성 합성을 달성하는 공동 성분 모 델 기반 음성 합성 방법 인 comoSpeech를 제안합니다. 일관성 제약 조건은 잘 설계된 확산 기반 교사 모델에서 일관성 모델을 증류하기 위해 적용되며, 이는 궁극적으로 증류 된 comospeech에서 우수한 성능을 산출합니다. 우리의 실험에 따르면 단일 샘플링 단계에 의해 오디오 녹음을 생성함으로써, ComoSpeech는 단일 NVIDIA A100 GPU에서 실시간보다 150 배 이상의 추론 속도를 달성하여 FastSpeech2와 비교하여 확산 샘플링 기반 음성 합성을 진정으로 실용적으로 만듭니다. 한편, 텍스트 음성 연설 및 노래 음성 합성에 대한 객관적이고 주관적인 평가는 제안 된 교사 모델이 최상의 오디오 품질을 산출하고, 1 단계 샘플링 기반 Comospeech는 다른 기존의 멀티 스테프 확산 모델 기준에 대한 더 나은 오디오 품질로 최상의 추론 속도를 달성한다는 것을 보여줍니다.
monotonic_align 코드 (Cython) 빌드 :
cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../.. 텍스트 파일, 체크 포인트 경로, 샘플링 수를 제공하여 스크립트 inference.py 실행합니다.
python inference.py -f < text file > -c < checkpoint > -t < sampling steps > 생성 된 오디오를 out 폴더를 확인하십시오. Params 파일에서. 교사 = True는 교사 모델을위한 것입니다. 거짓은 우리의 comospeech를위한 것입니다. 또한 Grad-TTS에서 동일한 보코더를 사용합니다. 다운로드하여 Checkpts 폴더에 넣을 수 있습니다.
우리는 ljspeech 데이터 세트를 사용하고 FastSpeech2의 Train/Test/Val 분할을 따라 FS2_TXT 폴더에서 분할을 변경할 수 있습니다. 그런 다음 스크립트 train.py 실행합니다.
python train.py Params 파일에서. 교사 = True는 교사 모델을위한 것입니다. 거짓은 우리의 comospeech를위한 것입니다. Comospeech 교육을받는 동안 교사 체크 포인트 디렉토리가 제공되어야합니다.
ljspeech에서 훈련 된 체크 포인트는 여기에서 다운로드 할 수 있습니다.
코드베이스는 주로 Grad-TTS에서 빌려 왔기 때문에 Grad-TTS의 저자에게 특별한 감사를드립니다.
풀 요청을 보내거나 아이디어를 나와 공유 할 수 있습니다. 연락처 정보 : Zhen Ye ([email protected])