Learn2Sing2.0
1.0.0
官方實施Learn2sing 2.0。有關所有詳細信息,請查看Interspeech 2022通過此鏈接接受的論文。
作者:Heyang Xue,Xinsheng Wang,Yongmao Zhang,Lei Xie,Pengcheng Zhu,Mengxiao BI。
演示頁面:鏈接。
為一個不擅長唱歌的人建立高質量的歌唱語料庫是非平凡的,因此為這個人創建歌聲合成器而具有挑戰性。 Learn2sing致力於通過從他人記錄的數據(即歌唱老師記錄的數據)中學習來綜合說話者的歌聲,而無需他或她的歌聲數據。擬議的Learn2sing 2.0首先,啟發性的是,音調是區分唱歌與說話語音的關鍵因素,首先在電話級別產生平均音高的初步聲學功能,這可以在手機級別進行平均音高,從而可以為不同的樣式(IE,說話或唱歌)進行此過程的培訓,除了具有相同的揚聲器信息外。然後,以特定樣式為條件,擴散解碼器在推理階段通過快速採樣算法加速了擴散解碼器,以逐漸恢復最終的聲學特徵。在培訓期間,為了避免說話者嵌入和样式嵌入的信息混亂,使用相互信息來限制說話者嵌入和样式嵌入的學習。實驗表明,所提出的方法能夠為目標揚聲器合成高質量的歌聲,而無需使用10個解碼步驟唱歌數據。
用自己的集替換文本/符號中的手機和音高集
提供config.json中數據的路徑,testdata文件夾包含示例文件以演示格式
訓練
bash run.sh
推理
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True