VoiceCloningダウンロードVoiceCloningソースコードのダウンロード

VoiceCloning

AI ソースコード

1.0.0

ダウンロード

ゼロショットの注意ベースのTTSを使用した音声クローニングモデル

このAPIで使用されるAIは、生成オーディオモデリングのZero-ShotマルチスピーカーTTS実装です。

yourttsモデルを提案した論文は、APIの中央ビルディングブロックとして使用されました。 Zero-ShotマルチスピーカーTTSの多言語アプローチのYourttは、古いVITSアプローチに基づいて多言語オーディオデータで利用できるようにします。

TTSの概念を研究するために使用される参照実装は、こちらにあります

コキから提供されているように、オープンソースの下で研究されたモデル

モデル	URL
スピーカーエンコーダー	リンク
Exp1。Yourtts-en（vctk）	リンク
Exp1。Yourtts-en（vctk） + scl	リンク
Exp2。Yourtts-en（vctk）-pt	リンク
Exp2。Yourtts-en（vctk）-pt + scl	リンク
Exp3。Yourtts-en（vctk）-pt-fr	リンク
Exp3。Yourtts-en（vctk）-pt-fr scl	リンク
Exp4。Yourtts-en（vctk+libritts）-pt-fr scl	リンク

TTS再トレーニングデータ

MOSのオーディオはこちらから入手できます。また、MOS The Audiosはここにあります。

デフォルトのTTSオーディオソース：

Libritts（テストクリーン）：1188、1995、260、1284、2300、237、908、1580、121、1089

VCTK：P261、P225、P294、P347、P238、P234、P248、P335、P245、P326およびP302

MLSポルトガル語：12710、5677、12249、12287、9351、11995、7925、3050、4367、1306

引用


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

拡大する

追加情報