UTAUTAI
1.0.0
? 손 드로우에 대해 죄송합니다
Suno AI의 Chirp 및 Riffusion과 유사한 가사에서 어울리는 보컬 및 악기 트랙을 생성하는 것을 목표로하는 오픈 소스 저장소.
Utautai의 방법은 주로 Spear tts에서 영감을 얻었습니다
훈련하는 동안 입력은 '가사 2Semantic AR'에서 얻은 시맨틱 토큰으로 구성되어 가사에서 시맨틱 토큰을 추출하고 음향 토큰을 추출합니다. 또한, 음악에서 파생 된 MERT 표현은 추가 의미 론적 토큰을 얻기 위해 K- 평균 양자화에 적용된다.
그러나 추론하는 동안 음악에서 Mert 표현을 얻을 수 없습니다. 따라서, 우리는 프롬프트 TTS2의 방법론에 따라 스타일 모듈을 훈련시켜 추론 중 프롬프트에서 대상 MERT 표현을 획득합니다. 스타일 모듈은 변압기 기반 확산 모델로 구성됩니다.
이 접근법을 사용하여 대상 작업을 성공적으로 달성 할 수 있다고 생각합니다. 어떻게 생각하나요?
Utautai가 흥미롭고 유용하다는 것을 알게되면 Github에 별을 줘! Ø 모델을 계속 개선하고 흥미로운 기능을 추가하도록 권장합니다.
기부금은 항상 환영합니다.