StyleTTS2下載StyleTTS2源代碼下載

StyleTTS2

Ai源碼

1.0.0

下載

STYLETTS 2：通過大型語音語言模型通過樣式擴散和對抗性培訓邁向人級的文本到語音訓練

Yinghao Aaron Li，Cong Han，Vinay S. Raghavan，Gavin Mischler，Nima Mesgarani

在本文中，我們提出了Styletts 2，這是一種文本到語音（TTS）模型，該模型利用大型語音語言模型（SLM）利用樣式擴散和對抗性訓練來實現人級TTS合成。 Styletts 2通過將樣式建模為通過擴散模型建模為潛在的隨機變量，從而生成了最合適的文本樣式，而無需參考語音，從而實現了有效的潛在擴散，同時受益於擴散模型提供的各種語音綜合。此外，我們採用了大型的預訓練的SLM，例如WAVLM，作為我們的新型可區分持續時間建模來進行端到端訓練，從而改善了語音自然性。 STYLETTS 2超過了單揚聲器LJSpeech數據集上的人類錄音，並在MultiSpeaker VCTK數據集上匹配了以英語為母語的人。此外，當在庫列茨數據集中接受培訓時，我們的模型優於以前的公開模型，用於零攝像機的適應器。這項工作實現了單個和多言論揚聲器數據集上的第一個人級TTS綜合，展示了風格擴散和對對抗性訓練的潛力。

論文：https：//arxiv.org/abs/2306.07691

音頻樣本：https：//styletts2.github.io/

在線演示：擁抱面孔（感謝@fakerybakery的精彩在線演示）

托多

培訓和推理演示代碼的單揚聲器模型（LJSpeech）
多演講者模型（VCTK和Libritts）的測試培訓代碼
完成多台型型號的演示代碼，並上傳預訓練的型號
為新揚聲器添加一個帶有基礎預訓練的多鐘模型的新揚聲器腳本
修復train_second.py的DDP（加速器） （我已經盡力解決此問題，但沒有成功，因此，如果您願意提供幫助，請參閱＃7）

先決條件

Python> = 3.7
克隆這個存儲庫：

git clone https://github.com/yl4579/StyleTTS2.git
cd StyleTTS2

安裝Python要求：

pip install -r requirements.txt

在Windows上添加：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 -U

還要安裝Phonemizer並提及如果要運行演示：

pip install phonemizer
sudo apt-get install espeak-ng

下載並提取LJSpeech數據集，將其拉開為數據文件夾，然後將數據示例為24 kHz。文本對齊器和俯仰提取器已在24 kHz數據上進行了預訓練，但是您可以輕鬆地更改預處理並使用自己的預處理進行重新培訓。對於Libritts，您需要將火車清潔-360與火車-Clean-100相結合，並重命名文件夾Train-Clean-460（請參見Val_list_libritts.txt作為示例）。

訓練

第一階段訓練：

accelerate launch train_first.py --config_path ./Configs/config.yml

第二階段培訓（DDP版本不起作用，因此當前版本使用DP，如果您想提供幫助，請再次查看＃7） ：

python train_second.py --config_path ./Configs/config.yml

您可以連續運行，它將同時訓練第一階段和第二階段。該模型將以“ epoch_1st_％05d.pth”和“ epoch_2nd_％05d.pth”的格式保存。檢查點和張板日誌將保存在log_dir上。

數據列表格式需要為filename.wav|transcription|speaker ，請參見Val_list.txt作為示例。多演講者模型需要揚聲器標籤，因為我們需要為樣式擴散模型訓練示例參考音頻。

重要配置

在config.yml中，有一些重要的配置需要照顧：

OOD_data ：SLM對抗訓練的分發文本的路徑。格式應為text|anything 。
min_length ：訓練的最小OOD文本長度。這是為了確保綜合語音的長度最小。
max_len ：訓練的最大音頻長度。單元是框架。由於默認的躍點尺寸為300，因此一個幀約為300 / 24000 ）秒。如果您遇到不可存儲的問題，請降低這一點。
multispeaker ：如果您想訓練多孔模型，請設置為True。這是需要的，因為DeOiser的架構對於單個和多座模型的模型有所不同。
batch_percentage ：這是為了確保在SLM對抗訓練中沒有內存（OOM）問題。如果遇到OOM問題，請為此設置較低的數字。

預訓練的模塊

在Utils文件夾中，有三個預訓練的模型：

ASR文件夾：它包含預先訓練的文本對準器，該文本對準器已通過英語（庫），日語（JVS）和中文（Aishell）語料庫進行了預先培訓。它適用於大多數其他語言，而無需微調，但是您總是可以在此處使用代碼訓練自己的文本對準器：YL4579/AuxiliaryAsr。
JDC文件夾：它包含預先訓練的螺距提取器，該提取器僅在英語（庫）語料庫上進行了預訓練。但是，它也適用於其他語言，因為F0獨立於語言。如果您想對唱歌語料庫進行訓練，建議在此處使用代碼訓練新的音高提取器：YL4579/PitchExtractor。
PLBERT文件夾：它包含預先訓練的PL-Bert模型，該模型僅在英語（Wikipedia）語料庫上進行了預先培訓。它可能在其他語言上效果不佳，因此您需要在此處使用repo來訓練不同的PL-bert為不同的語言進行訓練：yl4579/pl-bert。您還可以使用支持14種語言的多語言PL-Bert。

常見問題

損失變為NAN ：如果它是第一階段，請確保您不使用混合精度，因為當批處理大小未正確設置時，可能會導致某些特定數據集的損失變成NAN（需要超過16個以上才能正常工作）。在第二階段，請同時嘗試不同的批次大小，較高的批量大小更有可能導致NAN損失值。我們建議將批量尺寸為16。有關更多詳細信息，您可以參考第10和＃11問題。
不記憶：請使用較低的batch_size或max_len 。有關更多信息，您可以參考第10期。
非英語數據集：您可以使用所需的任何語言進行培訓，但是您需要使用預先訓練的PL-bert模型來使用該語言。我們有一個預先培訓的多語言PL-Bert，支持14種語言。您可以參考YL4579/STYLETTS＃10和＃70，以獲取一些示例以在中文數據集上進行訓練。

微調

該腳本是從使用DP的train_second.py修改的，因為DDP不適用於train_second.py 。如果您願意解決此問題，請參閱上面的大膽部分。

python train_finetune.py --config_path ./Configs/config_ft.yml

請確保在文件夾下下載並解壓縮了庫檢查站。 LJSpeech上的默認配置config_ft.yml finetunes，具有1小時的語音數據（大約1K樣本），適用於50個時期。這花了大約4個小時才能完成四個NVIDIA A100。質量比從頭開始訓練24小時的語音數據訓練的LJSpeech型號稍差（類似於LjSpeech上的NaturalSpeech），該模型花費了2.5天大約2.5天的時間才能完成四個A100。可以在＃65（評論）找到樣品。

如果您使用的是單個GPU （因為該腳本與DDP不起作用）並希望節省訓練速度和VRAM，則可以執行（感謝@korakoe在＃100上製作腳本）：

accelerate launch --mixed_precision=fp16 --num_processes=1 train_finetune_accelerate.py --config_path ./Configs/config_ft.yml

常見問題

@Kreevoz在填充方面的常見問題已經詳細說明了，並提出了最大化音頻質量的建議：＃81。其中一些也適用於從頭開始培訓。 @iieleven11還制定了微調指南：＃128。

在joint_epoch之後的記憶中：這很可能是因為您的GPU RAM不夠大，無法進行SLM對抗訓練。您可能會跳過這一點，但質量可能會更糟。設置joint_epoch數量大於epochs可以跳過SLM前進訓練。

推理

有關詳細信息，請參閱inference_ljspeech.ipynb（單式揚聲器）和inperion_libritts.ipynb（多演講者）。對於Libritts，您還需要在運行演示之前下載Reference_audio.zip並在demo下解壓縮。

可以通過https://huggingface.co/yl4579/styletts2-ljspeech/tree/main下載24 kHz的LJSpeech語料庫上的預易款Styletts 2。
可以在https://huggingface.co/yl4579/styletts2-libritts/tree/main上下載列表上的預易款styletts 2模型。

您可以導入Styletts 2並在您自己的代碼中運行它。但是，推理取決於GPL許可的軟件包，因此它不直接包含在此存儲庫中。 GPL許可的叉子具有可導入的腳本，以及一個實驗流的API等。也提供了使用Gruut（儘管在PhoneMizer和Gruut之間不匹配的質量降低質量）的完全MIT許可的軟件包。

在使用這些預訓練的模型之前，您同意通知聽眾，除非您有許可使用您合成的語音，否則先前訓練的模型是由預訓練的模型合成的。也就是說，您只同意使用其說話者許可的聲音直接或通過許可來克隆聲音，然後才能在公開合成的聲音公開之前，或者您必須公開宣布，如果您沒有使用這些聲音的許可，則這些聲音是合成的。

常見問題

高音背景噪聲：這是由舊GPU的數值浮點差異引起的。有關更多詳細信息，請參閱第13期。基本上，您需要使用更多現代的GPU或對CPU進行推斷。
預先訓練的模型許可證：如果您使用預訓練的型號並且聲音不在培訓集中，則只需遵守以上規則，即，您的參考揚聲器不是來自任何開放訪問數據集。有關使用預訓練模型的規則的更多詳細信息，請參見＃37。