UTAUTAI
1.0.0
对不起,手工绘制
一个开源存储库,旨在从歌词中产生匹配的人声和乐器曲目,类似于Suno Ai的chir和riffusion。
Utautai的方法主要是受长矛TT的启发
在培训期间,输入包括从“歌词2semantic AR”获得的语义令牌,该语义令牌从歌词中提取语义令牌以及声学令牌。此外,从音乐中得出的MERT表示受到K均值量化以获得进一步的语义令牌。
但是,在推断期间,不可能从音乐中获得MERT表示。因此,我们按照提示TTS2的方法来训练样式模块,以从推理过程中从提示中获取目标MERT表示。样式模块由基于变压器的扩散模型组成。
我认为使用这种方法,我们可以成功完成目标任务。你怎么认为?
如果您发现Utautai有趣且有用,请在Github上给我们一颗星星!测试仪鼓励我们不断改进模型并添加令人兴奋的功能。
总是欢迎捐款。