UTAUTAI
1.0.0
對不起,手工繪製
一個開源存儲庫,旨在從歌詞中產生匹配的人聲和樂器曲目,類似於Suno Ai的chir和riffusion。
Utautai的方法主要是受長矛TT的啟發
在培訓期間,輸入包括從“歌詞2semantic AR”獲得的語義令牌,該語義令牌從歌詞中提取語義令牌以及聲學令牌。此外,從音樂中得出的MERT表示受到K均值量化以獲得進一步的語義令牌。
但是,在推斷期間,不可能從音樂中獲得MERT表示。因此,我們按照提示TTS2的方法來訓練樣式模塊,以從推理過程中從提示中獲取目標MERT表示。樣式模塊由基於變壓器的擴散模型組成。
我認為使用這種方法,我們可以成功完成目標任務。你怎麼認為?
如果您發現Utautai有趣且有用,請在Github上給我們一顆星星!測試儀鼓勵我們不斷改進模型並添加令人興奮的功能。
總是歡迎捐款。