Learn2sing 2.0의 공식 구현. 모든 세부 사항은이 링크를 통해 Interspeech 2022에서 수락 한 논문을 확인하십시오.
저자 : Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao BI.
데모 페이지 : 링크.
노래에 능숙하지 않은 사람을위한 고품질 노래 코퍼스를 구축하는 것은 사소한 일이 아니므 로이 사람을 위해 노래하는 음성 신디사이저를 만드는 것이 어려워집니다. Learn2sing은 다른 사람들이 녹음 한 데이터, 즉 노래 교사가 녹음 한 데이터로부터 학습함으로써 노래 데이터없이 스피커의 노래 목소리를 합성하는 데 전념하고 있습니다. 피치가 노래를 말하는 목소리와 구별하는 핵심 요소라는 사실에서 영감을 얻은, 제안 된 Learn2sing 2.0은 먼저 전화 수준에서 평균 피치 값으로 예비 음향 기능을 생성하여 다른 스타일, 즉 말하기 또는 노래에 대한이 프로세스의 훈련을 스피커 정보를 제외한 동일한 조건을 공유 할 수 있습니다. 그런 다음 특정 스타일로 조절 된 확산 디코더는 추론 단계 동안 빠른 샘플링 알고리즘에 의해 가속되는 확산 디코더가 최종 음향 기능을 점차적으로 복원하기 위해 채택됩니다. 훈련하는 동안, 화자 임베딩 및 스타일 임베딩의 정보 혼동을 피하기 위해, 상호 정보는 화자 임베딩 및 스타일 임베딩의 학습을 제한하기 위해 사용됩니다. 실험에 따르면 제안 된 접근법은 10 개의 디코딩 단계로 데이터를 노래하지 않고 대상 스피커의 고품질 노래 음성을 합성 할 수 있음을 보여줍니다.
텍스트/symplics.py로 전화기와 피치 세트를 자신의 세트로 교체하십시오.
config.json의 데이터 경로를 제공합니다. TestData 폴더에는 형식을 보여주는 예제 파일이 포함되어 있습니다.
훈련
bash run.sh
추론
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True