在最近的論文中,我們提出了YourTTS模型。 YourTTS將多語言方法的力量帶入了零擊多演講者TTS的任務。我們的方法建立在VITS模型的基礎上,並為零擊的多演講者和多語言培訓添加了一些新穎的修改。我們實現了最新的(SOTA)結果,結果零發言人TTS,結果可與SOTA在VCTK數據集上的零發音轉換中相當。此外,我們的方法還具有單揚聲器數據集的目標語言,可以實現有希望的結果,以零聲音揚聲器TTS和低資源語言中的零發音語音轉換系統開放可能性。最後,可以用少於1分鐘的語音來微調YourTTS模型,並實現最新的聲音相似性和合理的質量。這對於允許與訓練過程中的語音或記錄特徵截然不同的說話者允許合成。
在YourTTS論文的第2節中,我們定義了說話者一致性損失(SCL)功能。此外,我們在第3和4節的4個微調實驗上使用了此損失函數(經驗1 + SCL,Exp。2 + SCL,Exp。3 + SCL和Exp。4 + SCL)。但是,由於實施錯誤,該模型在培訓期間沒有傳播此損失功能的梯度。這意味著使用這種損失的微調實驗等同於訓練模型的更多步驟,而不會說話者一致性損失。該錯誤是由TomášNekvinda發現的,並報導了Coqui TTS存儲庫的第2348號問題。此錯誤已修復在Coqui TTS存儲庫上的拉請請求號2364上。目前,它針對Coqui TTS版本V0.12.0或更高版本進行了修復。我們要感謝TomášNekvinda找到了該錯誤並報告了該錯誤。
快來嘗試我們最新,最偉大的富含英語的唯一模特https://coqui.ai/
訪問我們的網站以獲取音頻樣本。
我們所有的實驗均在Coqui TTS存儲庫上實施。
| 演示 | URL |
|---|---|
| 零射TT | 關聯 |
| 零射VC | 關聯 |
| 零射擊VC-實驗1(用VCTK訓練) | 關聯 |
所有發布的檢查站均根據CC BY-NC-ND 4.0許可
| 模型 | URL |
|---|---|
| 揚聲器編碼器 | 關聯 |
| Exp1。 Yourtts-en(VCTK) | 無法使用 |
| EXP1。 Yourtts-en(VCTK) + SCL | 關聯 |
| Exp2。 Yourtts-en(VCTK)-pt | 無法使用 |
| Exp2。 Yourtts-en(VCTK)-PT + SCL | 無法使用 |
| EXP3。 Yourtts-en(VCTK)-pt-fr | 無法使用 |
| EXP3。 Yourtts-en(VCTK)-PT-FR SCL | 無法使用 |
| EXP4。 Yourtts-en(VCTK+libritts)-pt-fr SCL | 無法使用 |
使用? TTS版本V0.7.0發布了用於文本到語音的YourTTS模型,使用以下命令:
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
考慮到“ target_speaker_wav.wav”目標揚聲器的音頻樣本。
使用? TTS發布了用於語音轉換的YourTTS模型使用以下命令:
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
將“ target_content_wav.wav”視為參考波文件,以轉換為“ target_speaker_wav.wav”揚聲器的語音。
為了確保可複制性,我們使音頻用於在此處生成可用的MOS。此外,我們在這里為每個音頻提供MOS。
要重新生成我們的MOS結果,請按照此處的說明進行操作。為了預測測試句子並生成SECS,請使用此處可用的Jupyter筆記本。
庫(測試清潔):1188,1995,260,1284,2300,237,908,1580,121和1089
VCTK:P261,P225,P294,P347,P238,P234,P248,P335,P245,P245,P326和P302
MLS葡萄牙語:12710,5677,12249,12287,9351,11995,7925,7925,3050,4367和1306
為了完全複製實驗1,我們提供了有關coqui tts的食譜。此食譜下載,重新採樣,提取揚聲器嵌入並訓練模型,而無需進行代碼的任何更改。
該文章是使用我的Coqui TTS叉在分支多語言torchaudio-se上製作的。
如果您想使用最新版本的Coqui TTS,則可以從Coqui發布的模型中獲取Config.json。
使用Config.json,您首先需要將“數據集”配置更改為數據集。使用config.json和“數據集”配置調整後python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
“ model_se.pth.tar”和“ config_se.json”可以在coqui發布的模型中找到,而config.json是您設置路徑的config。
您應該更改的其他參數在“ config.json”上:
現在,您已經擁有配置為複制培訓的config.json,可以使用以下命令(如果您願意的話,可以使用-restore_path {checkpoint_path_path_path_path_pats_pats_pats_path}來從檢查點進行轉移學習並加快培訓: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}