語音合成的最新進展已利用基於GAN的網絡(例如Hifi-Gan和Bigvgan)從MEL-SPECTROGRAM中產生高保真波形。但是,這些網絡在計算上是昂貴且參數繁重的。 ISTFTNET通過將反相反的傅立葉變換(ISTFT)集成到網絡中來解決這些局限性,從而達到速度和參數效率。在本文中,我們引入了一個稱為HIFTNET的ISTFTNET的擴展名,該擴展名在時頻域中包含了一個諧波加上噪聲源過濾器,該過濾器使用通過預訓練的F0估計網絡推斷出的基本頻率(F0)的正弦源,以獲得快速的選擇速度。對LJSpeech的主觀評估表明,我們的模型顯著優於ISTFTNET和HIFI-GAN,可以實現地面級別的性能。 HIFTNET還在庫中勝過Bigvgan基數,在看不見的揚聲器上,與Bigvgan的性能相當,而只有1/6參數的速度快四倍。我們的工作為高效,高質量的神經聲音設計樹立了新的基準,為需要高質量語音綜合的實時應用鋪平了道路。
論文:https://arxiv.org/abs/2309.09493
音頻樣本:https://hiftnet.github.io/
在此處查看使用HIFTNet作為人級語音綜合的語音解碼器的TTS工作:https://github.com/yl4579/styletts22
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]有關F0型號培訓,請參閱YL4579/PitchExtractor。此存儲庫包括在庫中進行的預訓練的F0模型。儘管如此,您可能還需要訓練自己的F0模型以獲得最佳性能,尤其是對於嘈雜或非語音數據,因為我們發現F0估計精度對於Vocoder的性能至關重要。
有關詳細信息,請參閱筆記本the the notebook the。
您可以在此處下載預先訓練的LJSpeech模型,並在此處下載預訓練的庫板模型。預訓練的模型包含可用於微調的優化器和歧視器的參數。