實施comospeech。有關所有詳細信息,請查看ACM MM 2023接受的論文:ComoSpeech:通過一致性模型的一步演講和唱歌語音綜合。
作者:Zhen Ye,Wei Xue,Xu Tan,Jie Chen,Qifeng Liu,Yike Guo。
2024-04-26
2023-12-01
2023-11-30
2023-10-21
演示頁面:鏈接。
剝離擴散概率模型(DDPM)顯示出有希望的語音綜合性能。但是,需要大量的迭代步驟才能達到高樣本質量,從而限制了推理速度。在提高采樣速度的同時保持樣本質量已成為一項艱鉅的任務。在本文中,我們提出了一個基於Mo del的語音合成方法ComoSpeech,該方法通過單個擴散採樣步驟實現語音綜合,同時實現了高音頻質量。一致性約束用於從設計良好的基於擴散的教師模型中提取一致性模型,該模型最終在蒸餾的ComoSpeech中產生出色的性能。我們的實驗表明,通過單個採樣步驟生成音頻記錄,ComoSpeech的推理速度比單個NVIDIA A100 GPU的實時快150倍以上,該速度與FastSpeech2相當,從而使基於擴散的基於傳播的語音綜合真正實用。同時,對文本到語音和唱歌語音綜合的客觀和主觀評估表明,所提出的教師模型產生了最佳的音頻質量,基於單步抽樣的comospeech可實現最佳的推理速度,具有更好或可比的音頻質量,與其他常規的多步分步散佈模型基線相比。
構建monotonic_align代碼(Cython):
cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..通過提供inference.py文本文件的路徑,通往檢查點的路徑,採樣數:
python inference.py -f < text file > -c < checkpoint > -t < sampling steps > 請查看out的文件夾以獲取生成的音頻。請注意,在參數文件中。老師= true是針對我們的教師模型的,false是針對我們的comospeech。此外,我們在Grad-TT中使用了相同的Vocoder。您可以下載並放入Checkpts文件夾。
我們使用ljspeech數據集,然後遵循fastspeech2中的火車/測試/val拆分,您可以更改FS2_TXT文件夾中的拆分。然後運行腳本train.py ,
python train.py 請注意,在參數文件中。老師= true是針對我們的教師模型的,false是針對我們的comospeech。在培訓ComoSpeech時,應提供教師檢查點目錄。
可以從此處下載在LJSpeech上培訓的檢查點。
我要特別感謝Grad-TTS的作者,因為我們的代碼庫主要是從Grad-TT借來的。
歡迎您發送拉動請求或與我分享一些想法。聯繫信息:Zhen Ye([email protected])