CoMoSpeech 다운로드 CoMoSpeech 소스 코드 다운로드

CoMoSpeech

AI 소스 코드

1.0.0

다운로드

comospeech

comospeech의 구현. 모든 세부 사항은 ACM MM 2023 : Comospeech : 일관성 모델을 통한 한 단계 연설 및 노래 음성 합성에 수락 된 논문을 확인하십시오.

저자 : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.

업데이트

2024-04-26

우리는 잠재적 인 일관성 모델과 적대 훈련을 기반으로 효율적인 제로 샷 음성 합성기 인 FlashSpeech를 제안합니다. (종이).

2023-12-01

또한 일관성 모델 (코드)을 기반으로 잘 디자인 된 노래 음성 변환 (SVC) 버전을 제안합니다.

2023-11-30

우리는 Grad-TTS의 이전 대신에 가우스 소음이 비슷한 성능을 달성 할 수 있음을 발견했습니다. 우리는 새로운 코드와 체크 포인트를 공개합니다.

2023-10-21

우리는 교사 모델에 대한 Heun의 2 차 방법 지원을 추가합니다 (교사 모델 샘플링 및 일관성 증류를위한 더 나은 ODE 궤적에 사용할 수 있음).

추상적인

데모 페이지 : 링크.

DDPMS (Denoising 확산 확률 모델)는 언어 합성에 대한 유망한 성능을 보여 주었다. 그러나 높은 샘플 품질을 달성하려면 많은 수의 반복 단계가 필요하며, 이는 추론 속도를 제한합니다. 샘플 품질을 유지하면서 샘플링 속도를 높이는 것은 어려운 작업이되었습니다. 이 논문에서, 우리는 높은 오디오 품질을 달성하면서 단일 확산 샘플링 단계를 통해 음성 합성을 달성하는 공동 성분 모 델 기반 음성 합성 방법 인 comoSpeech를 제안합니다. 일관성 제약 조건은 잘 설계된 확산 기반 교사 모델에서 일관성 모델을 증류하기 위해 적용되며, 이는 궁극적으로 증류 된 comospeech에서 우수한 성능을 산출합니다. 우리의 실험에 따르면 단일 샘플링 단계에 의해 오디오 녹음을 생성함으로써, ComoSpeech는 단일 NVIDIA A100 GPU에서 실시간보다 150 배 이상의 추론 속도를 달성하여 FastSpeech2와 비교하여 확산 샘플링 기반 음성 합성을 진정으로 실용적으로 만듭니다. 한편, 텍스트 음성 연설 및 노래 음성 합성에 대한 객관적이고 주관적인 평가는 제안 된 교사 모델이 최상의 오디오 품질을 산출하고, 1 단계 샘플링 기반 Comospeech는 다른 기존의 멀티 스테프 확산 모델 기준에 대한 더 나은 오디오 품질로 최상의 추론 속도를 달성한다는 것을 보여줍니다.

준비하다

monotonic_align 코드 (Cython) 빌드 :

 cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..

추론

텍스트 파일, 체크 포인트 경로, 샘플링 수를 제공하여 스크립트 inference.py 실행합니다.

    python inference.py -f < text file > -c < checkpoint > -t < sampling steps >

생성 된 오디오를 out 폴더를 확인하십시오. Params 파일에서. 교사 = True는 교사 모델을위한 것입니다. 거짓은 우리의 comospeech를위한 것입니다. 또한 Grad-TTS에서 동일한 보코더를 사용합니다. 다운로드하여 Checkpts 폴더에 넣을 수 있습니다.