Learn2Sing2.0
1.0.0
官方实施Learn2sing 2.0。有关所有详细信息,请查看Interspeech 2022通过此链接接受的论文。
作者:Heyang Xue,Xinsheng Wang,Yongmao Zhang,Lei Xie,Pengcheng Zhu,Mengxiao BI。
演示页面:链接。
为一个不擅长唱歌的人建立高质量的歌唱语料库是非平凡的,因此为这个人创建歌声合成器而具有挑战性。 Learn2sing致力于通过从他人记录的数据(即歌唱老师记录的数据)中学习来综合说话者的歌声,而无需他或她的歌声数据。拟议的Learn2sing 2.0首先,启发性的是,音调是区分唱歌与说话语音的关键因素,首先在电话级别产生平均音高的初步声学功能,这可以在手机级别进行平均音高,从而可以为不同的样式(IE,说话或唱歌)进行此过程的培训,除了具有相同的扬声器信息外。然后,以特定样式为条件,扩散解码器在推理阶段通过快速采样算法加速了扩散解码器,以逐渐恢复最终的声学特征。在培训期间,为了避免说话者嵌入和样式嵌入的信息混乱,使用相互信息来限制说话者嵌入和样式嵌入的学习。实验表明,所提出的方法能够为目标扬声器合成高质量的歌声,而无需使用10个解码步骤唱歌数据。
用自己的集替换文本/符号中的手机和音高集
提供config.json中数据的路径,testdata文件夹包含示例文件以演示格式
训练
bash run.sh
推理
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True