VoiceCloning
1.0.0
yourttsモデルを提案した論文は、APIの中央ビルディングブロックとして使用されました。 Zero-ShotマルチスピーカーTTSの多言語アプローチのYourttは、古いVITSアプローチに基づいて多言語オーディオデータで利用できるようにします。
| モデル | URL |
|---|---|
| スピーカーエンコーダー | リンク |
| Exp1。Yourtts-en(vctk) | リンク |
| Exp1。Yourtts-en(vctk) + scl | リンク |
| Exp2。Yourtts-en(vctk)-pt | リンク |
| Exp2。Yourtts-en(vctk)-pt + scl | リンク |
| Exp3。Yourtts-en(vctk)-pt-fr | リンク |
| Exp3。Yourtts-en(vctk)-pt-fr scl | リンク |
| Exp4。Yourtts-en(vctk+libritts)-pt-fr scl | リンク |
MOSのオーディオはこちらから入手できます。また、MOS The Audiosはここにあります。
Libritts(テストクリーン):1188、1995、260、1284、2300、237、908、1580、121、1089
VCTK:P261、P225、P294、P347、P238、P234、P248、P335、P245、P326およびP302
MLSポルトガル語:12710、5677、12249、12287、9351、11995、7925、3050、4367、1306
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}