YourTTS下載 - YourTTS源代碼下載

YourTTS

Ai源碼

MOS Samples

下載

Yourtts：朝著每個人的零射擊多演講者tts和零拍的語音轉換

在最近的論文中，我們提出了YourTTS模型。 YourTTS將多語言方法的力量帶入了零擊多演講者TTS的任務。我們的方法建立在VITS模型的基礎上，並為零擊的多演講者和多語言培訓添加了一些新穎的修改。我們實現了最新的（SOTA）結果，結果零發言人TTS，結果可與SOTA在VCTK數據集上的零發音轉換中相當。此外，我們的方法還具有單揚聲器數據集的目標語言，可以實現有希望的結果，以零聲音揚聲器TTS和低資源語言中的零發音語音轉換系統開放可能性。最後，可以用少於1分鐘的語音來微調YourTTS模型，並實現最新的聲音相似性和合理的質量。這對於允許與訓練過程中的語音或記錄特徵截然不同的說話者允許合成。

勘誤

在YourTTS論文的第2節中，我們定義了說話者一致性損失（SCL）功能。此外，我們在第3和4節的4個微調實驗上使用了此損失函數（經驗1 + SCL，Exp。2 + SCL，Exp。3 + SCL和Exp。4 + SCL）。但是，由於實施錯誤，該模型在培訓期間沒有傳播此損失功能的梯度。這意味著使用這種損失的微調實驗等同於訓練模型的更多步驟，而不會說話者一致性損失。該錯誤是由TomášNekvinda發現的，並報導了Coqui TTS存儲庫的第2348號問題。此錯誤已修復在Coqui TTS存儲庫上的拉請請求號2364上。目前，它針對Coqui TTS版本V0.12.0或更高版本進行了修復。我們要感謝TomášNekvinda找到了該錯誤並報告了該錯誤。

生產版本

快來嘗試我們最新，最偉大的富含英語的唯一模特https://coqui.ai/

音頻樣品

訪問我們的網站以獲取音頻樣本。

執行

我們所有的實驗均在Coqui TTS存儲庫上實施。

COLAB演示

演示	URL
零射TT	關聯
零射VC	關聯
零射擊VC-實驗1（用VCTK訓練）	關聯

檢查點

所有發布的檢查站均根據CC BY-NC-ND 4.0許可

模型	URL
揚聲器編碼器	關聯
Exp1。 Yourtts-en（VCTK）	無法使用
EXP1。 Yourtts-en（VCTK） + SCL	關聯
Exp2。 Yourtts-en（VCTK）-pt	無法使用
Exp2。 Yourtts-en（VCTK）-PT + SCL	無法使用
EXP3。 Yourtts-en（VCTK）-pt-fr	無法使用
EXP3。 Yourtts-en（VCTK）-PT-FR SCL	無法使用
EXP4。 Yourtts-en（VCTK+libritts）-pt-fr SCL	無法使用

Coqui TTS釋放模型

TTS

使用？ TTS版本V0.7.0發布了用於文本到語音的YourTTS模型，使用以下命令：

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

考慮到“ target_speaker_wav.wav”目標揚聲器的音頻樣本。

語音轉換

使用？ TTS發布了用於語音轉換的YourTTS模型使用以下命令：

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

將“ target_content_wav.wav”視為參考波文件，以轉換為“ target_speaker_wav.wav”揚聲器的語音。

結果可複制性

為了確保可複制性，我們使音頻用於在此處生成可用的MOS。此外，我們在這里為每個音頻提供MOS。

要重新生成我們的MOS結果，請按照此處的說明進行操作。為了預測測試句子並生成SECS，請使用此處可用的Jupyter筆記本。

測試揚聲器：

庫（測試清潔）：1188，1995，260，1284，2300，237，908，1580，121和1089

VCTK：P261，P225，P294，P347，P238，P234，P248，P335，P245，P245，P326和P302

MLS葡萄牙語：12710，5677，12249，12287，9351，11995，7925，7925，3050，4367和1306

可重複性

為了完全複製實驗1，我們提供了有關coqui tts的食譜。此食譜下載，重新採樣，提取揚聲器嵌入並訓練模型，而無需進行代碼的任何更改。

該文章是使用我的Coqui TTS叉在分支多語言torchaudio-se上製作的。

如果您想使用最新版本的Coqui TTS，則可以從Coqui發布的模型中獲取Config.json。

使用Config.json，您首先需要將“數據集”配置更改為數據集。使用config.json和“數據集”配置調整後python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

“ model_se.pth.tar”和“ config_se.json”可以在coqui發布的模型中找到，而config.json是您設置路徑的config。

您應該更改的其他參數在“ config.json”上：

“ d_vector_file”：既然您已經擁有揚聲器嵌入文件（d_vector_file.json），將配置設置上的“ d_vector_file”參數調整到揚聲器嵌入文件的路徑上。
“ output_path”：保存檢查點和訓練日誌的路徑
“ speaker_encoder_config_path”：用於計算揚聲器餘弦相似性損失/揚聲器一致性損失的揚聲器編碼器配置（將其設置為config_se.json路徑）
“ spaineer_encoder_model_path”：用於計算揚聲器餘弦相似性損失/揚聲器一致性損失的揚聲器編碼器檢查點（將其設置為“ config_se.json”路徑）

現在，您已經擁有配置為複制培訓的config.json，可以使用以下命令（如果您願意的話，可以使用-restore_path {checkpoint_path_path_path_path_pats_pats_pats_path}來從檢查點進行轉移學習並加快培訓： python3 TTS/bin/train_tts.py --config_path config.json

引用

預印本


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

ICML發表的論文

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

展開

附加信息

版本 MOS Samples
類型 Ai源碼
更新時間 2025-09-14
大小 94.83MB
來自於 Github

相關應用

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部