由於平行TTS系統的快速發展,文本到語音(TTS)最近在綜合高質量的語音方面取得了長足進步,但是通過自然主義的韻律變化,口語風格和情感色調發表語音仍然具有挑戰性。此外,由於持續時間和言語是單獨生成的,因此平行的TTS模型仍然存在問題,發現最佳的單調比對對於自然主義語音綜合至關重要。在這裡,我們提出了Styletts,這是一種基於樣式的生成模型,用於平行TT,可以將各種語音與參考語音發言的自然韻律合成。在新型可轉移的單調對準器(TMA)和持續不變的數據增強方案中,我們的方法在言語自然和說話者相似性的主觀測試中,在單個和多揚聲器數據集中都顯著超過了最先進的模型。通過對口語風格的自我監督學習,我們的模型可以用與任何給定的參考語音相同的韻律和情感語氣綜合語音,而無需明確標記這些類別。
論文:https://arxiv.org/abs/2107.10394
音頻樣本:https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.git第一階段訓練:
python train_first.py --config_path ./Configs/config.yml第二階段訓練:
python train_second.py --config_path ./Configs/config.yml您可以連續運行,它將訓練第一階段和第二階段。該模型將以“ epoch_1st_%05d.pth”和“ epoch_2nd_%05d.pth”的格式保存。檢查點和張板日誌將保存在log_dir上。
數據列表格式需要為filename.wav|transcription ,請參見Val_list_libritts.txt。
有關詳細信息,請參閱tef tef theperion.ipynb。
可以在Styletts Link和Hifi-Gan Link下載LJSpeech語料庫上的易於預讀的Styletts和Hifi-Gan。
可以在styletts link和hifi-gan鏈接下下載驗證的易萊茨和hifi-gan。如果要運行零彈性演示,則還需要從庫中下載測試清潔。
請解開Models和Vocoder各自,並在筆記本中運行每個單元格。您還需要安裝PhoneMizer來運行此推理演示。
驗證的文本對齊器和俯仰提取器模型在Utils文件夾下提供。文本對齊器和俯仰提取器模型均經過使用meldataset.py進行預處理的MELSEDER圖訓練。
您可以使用自己的MelspectRogram預處理編輯Meldataset.py,但是提供的預貼上的型號將不再起作用。您將需要使用新的預處理訓練自己的文本對準器和音高提取器。
培訓的代碼在此處提供新的文本對準器模型,並且可以在此處提供訓練新的音高提取器模型。
如果我有額外的時間,我將提供更多現有預處理的現有預處理。如果您願意提供幫助,請隨時使用ESPNET進行收件。