Unet TTS
1.0.0
電子郵件:[email protected]
我們提出的算法具有強大的揚聲器和風格的轉移功能,尤其是對雜物外情緒的極好模仿。
代碼
COLAB筆記本
普通話結果
紙鏈接
單發語音克隆旨在通過從文本到語音(TTS)系統中綜合的語音中的揚聲器語音和語音風格來轉換,在該系統中,只能使用目標語音錄製的鏡頭。室外轉移仍然是一項艱鉅的任務,影響合成語音的準確性和相似性的一個重要方面是攜帶說話者或從有限參考文獻中提取的樣式線索的條件表示。在本文中,我們提出了一種名為UNET-TTS的新穎的單發語音克隆算法,該算法具有良好的概括能力,可用於看不見的揚聲器和样式。基於跳過連接的U-NET結構,新模型可以從參考音頻中有效地發現說話者級別和話語級的光譜特徵細節,從而可以準確推斷複雜的聲學特徵,並將說話風格模仿到合成語音中。根據對相似性的主觀和客觀評估,新模型在看不見的情感語料庫上均優於說話者的嵌入者和無監督的樣式建模(GST)方法。
