Learn2Sing2.0 다운로드 Learn2Sing2.0 소스 코드 다운로드

Learn2Sing2.0

AI 소스 코드

1.0.0

다운로드

LEARN2SING 2.0 : 노래 교사로부터 학습하여 확산 및 상호 정보 기반 목표 스피커 SVS

Learn2sing 2.0의 공식 구현. 모든 세부 사항은이 링크를 통해 Interspeech 2022에서 수락 한 논문을 확인하십시오.

저자 : Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao BI.

추상적인

데모 페이지 : 링크.

노래에 능숙하지 않은 사람을위한 고품질 노래 코퍼스를 구축하는 것은 사소한 일이 아니므 로이 사람을 위해 노래하는 음성 신디사이저를 만드는 것이 어려워집니다. Learn2sing은 다른 사람들이 녹음 한 데이터, 즉 노래 교사가 녹음 한 데이터로부터 학습함으로써 노래 데이터없이 스피커의 노래 목소리를 합성하는 데 전념하고 있습니다. 피치가 노래를 말하는 목소리와 구별하는 핵심 요소라는 사실에서 영감을 얻은, 제안 된 Learn2sing 2.0은 먼저 전화 수준에서 평균 피치 값으로 예비 음향 기능을 생성하여 다른 스타일, 즉 말하기 또는 노래에 대한이 프로세스의 훈련을 스피커 정보를 제외한 동일한 조건을 공유 할 수 있습니다. 그런 다음 특정 스타일로 조절 된 확산 디코더는 추론 단계 동안 빠른 샘플링 알고리즘에 의해 가속되는 확산 디코더가 최종 음향 기능을 점차적으로 복원하기 위해 채택됩니다. 훈련하는 동안, 화자 임베딩 및 스타일 임베딩의 정보 혼동을 피하기 위해, 상호 정보는 화자 임베딩 및 스타일 임베딩의 학습을 제한하기 위해 사용됩니다. 실험에 따르면 제안 된 접근법은 10 개의 디코딩 단계로 데이터를 노래하지 않고 대상 스피커의 고품질 노래 음성을 합성 할 수 있음을 보여줍니다.

훈련 및 추론 :

이 구현을 사용하기 전에 다음을 수정해야합니다.

텍스트/symplics.py로 전화기와 피치 세트를 자신의 세트로 교체하십시오.
config.json의 데이터 경로를 제공합니다. TestData 폴더에는 형식을 보여주는 예제 파일이 포함되어 있습니다.

훈련
```
  bash run.sh
```

추론

  bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True

감사의 말 :

확산 디코더는 gradtts로부터 적응된다;
상호 정보의 추정은 vqmivc로부터 수정된다;
Vadim Popov는 빠른 샘플링 알고리즘 부분에 대한 코드 검토를 수행했습니다.

확장하다

추가 정보

버전 1.0.0
유형 AI 소스 코드
업데이트 시간 2025-08-21
크기 38.73MB
출처 Github

Learn2Sing2.0

LEARN2SING 2.0 : 노래 교사로부터 학습하여 확산 및 상호 정보 기반 목표 스피커 SVS

추상적인

훈련 및 추론 :

감사의 말 :

블렌더4.0

루퍼스4.0

jmcomicron.mic2.0

부패드라마 TV3.0

킹 오브 파이터즈 WingEx1.0

Indy9.0.루틴

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express