YourTTSダウンロードYourTTSソースコードのダウンロード

YourTTS

AI ソースコード

MOS Samples

ダウンロード

yourtts：ゼロショットマルチスピーカーTTSとすべての人のためのゼロショット音声変換に向けて

最近の論文では、Yourttsモデルを提案しています。 Yourttsは、ゼロショットマルチスピーカーTTSのタスクに多言語アプローチの力をもたらします。私たちの方法は、VITSモデルに基づいて構築され、ゼロショットマルチスピーカーと多言語トレーニングのためのいくつかの新しい変更を追加します。 VCTKデータセットでのゼロショット音声変換でSOTAに匹敵するゼロショットマルチスピーカーTTSと結果を得る最先端の（SOTA）結果を達成しました。さらに、私たちのアプローチは、単一スピーカーデータセットを備えたターゲット言語で有望な結果を達成し、低リソース言語でゼロショットマルチスピーカーTTSおよびゼロショット音声変換システムの可能性を開きます。最後に、YourTTSモデルを1分未満の音声で微調整し、音声の類似性と妥当な品質で最先端の結果を達成することができます。これは、トレーニング中に見られたものとは非常に異なる音声または記録特性を持つスピーカーの合成を許可するために重要です。

serratum

YourTTSペーパーのセクション2では、スピーカーの一貫性損失（SCL）関数を定義しました。さらに、セクション3および4の4つの微調整実験でこの損失関数を使用しました（Exp。1 + SCL、Exp。2 + SCL、Exp。3 + SCL、およびExp。4 + SCL）。ただし、実装の間違いにより、この損失関数の勾配は、トレーニング中にモデルに伝播されませんでした。つまり、この損失を使用した微調整実験は、スピーカーの一貫性の損失なしに、より多くのステップのためにモデルをトレーニングすることと同等であることを意味します。このバグは、TomášNekvindaによって発見され、Coqui TTSリポジトリの発行番号2348について報告されました。このバグは、Coqui TTSリポジトリのプルリクエスト番号2364に修正されました。現在、Coqui TTSバージョンv0.12.0以上に固定されています。バグを見つけて報告してくれたTomášNekvindaに感謝します。

生産バージョン

私たちの最新かつ最大のフルバンド英語のみのモデルhttps://coqui.ai/をお試しください

オーディオサンプル

オーディオサンプルについては、当社のWebサイトにアクセスしてください。

実装

すべての実験は、Coqui TTSリポジトリに実装されました。

コラブデモ

デモ	URL
ゼロショットTTS	リンク
ゼロショットVC	リンク
ゼロショットVC-実験1（VCTKだけで訓練されています）	リンク

チェックポイント

リリースされたすべてのチェックポイントは、CC by-nc-nd 4.0に基づいてライセンスされています

モデル	URL
スピーカーエンコーダー	リンク
Exp1。Yourtts-en（vctk）	利用不可
Exp1。Yourtts-en（vctk） + scl	リンク
Exp2。Yourtts-en（vctk）-pt	利用不可
Exp2。Yourtts-en（vctk）-pt + scl	利用不可
Exp3。Yourtts-en（vctk）-pt-fr	利用不可
Exp3。Yourtts-en（vctk）-pt-fr scl	利用不可
Exp4。Yourtts-en（vctk+libritts）-pt-fr scl	利用不可

コキTTSリリースモデル

TTS

使用するには？ TTSバージョンv0.7.0テキストからスピーチのためにyourttsモデルをリリースしました。次のコマンドを使用します。

 tts  --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --language_idx "en"

ターゲットスピーカーからの「Target_speaker_wav.wav」をオーディオサンプルを考慮します。

音声変換

使用するには？音声変換のためのYourTTSモデルをリリースしたものは、次のコマンドを使用します。

 tts --model_name tts_models/multilingual/multi-dataset/your_tts  --speaker_wav target_speaker_wav.wav --reference_wav  target_content_wav.wav --language_idx "en"

「Target_speaker_wav.wav.wav」スピーカーの音声に変換するための参照ウェーブファイルとして「target_content_wav.wav」を考慮します。

結果複製可能性

複製可能性を保証するために、ここで利用可能なMOを生成するために使用されるオーディオを作成します。さらに、ここで各オーディオにMOSを提供します。

MOSの結果を再生するには、こちらの指示に従ってください。テスト文を予測してSECを生成するには、こちらから入手可能なJupyterノートブックを使用してください。

テストスピーカー：

Libritts（テストクリーン）：1188、1995、260、1284、2300、237、908、1580、121、1089

VCTK：P261、P225、P294、P347、P238、P234、P248、P335、P245、P326およびP302

MLSポルトガル語：12710、5677、12249、12287、9351、11995、7925、3050、4367、1306

再現性

実験1を完全に複製するには、コキTTSに関するレシピを提供します。このレシピは、コードに変更を必要とせずに、スピーカーの埋め込みをダウンロード、リサンプ、スピーカーの埋め込みを抽出し、モデルをトレーニングします。

この記事は、Branch Multhingual-Torchaudio-Seで私のCoqui TTSフォークを使用して作成されました。

Coqui TTSの最新バージョンを使用する場合は、Coquiリリースモデルからconfig.jsonを取得できます。

config.jsonを手にすると、最初に「データセット」構成をデータセットに変更する必要があります。 config.jsonを使用して「datasets」構成を調整しました。次のコマンドを使用して、リリースしたスピーカーエンコーダーを使用してスピーカーのエンコーダーを使用してスピーカーのエンコーダーを抽出する必要があります： python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json

"model_se.pth.tar"および "config_se.json"は、coqui.jsonがパスを設定したconfig.jsonである間、Coquiリリースモデルで見つけることができます。

変更すべきその他のパラメーターは、「config.json」にあります。

"d_vector_file"：スピーカーが埋め込まれたファイル（d_vector_file.json）があり、設定で「d_vector_file」パラメーターをスピーカー埋め込みファイルのパスに調整します。
「output_path」：チェックポイントとトレーニングログを保存するためのパス
「Speaker_encoder_config_path」：スピーカーの類似性損失/スピーカーの一貫性の損失を計算するために使用するスピーカーエンコーダー構成（config_se.jsonパスに設定）
「Speaker_encoder_model_path」：スピーカーのコサインの類似性損失/スピーカーの一貫性の損失を計算するために使用されるスピーカーエンコーダーチェックポイント（config_se.json」パスに設定）

config.jsonがトレーニングを複製するように構成されたので、次のコマンドを使用できます（restore_path {checkpoint_path}を使用してチェックポイントから学習を転送し、トレーニングをスピードアップできます： python3 TTS/bin/train_tts.py --config_path config.json

引用

プリプリント


@ARTICLE{2021arXiv211202418C,
  author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
  title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
  journal = {arXiv e-prints},
  keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
  year = 2021,
  month = dec,
  eid = {arXiv:2112.02418},
  pages = {arXiv:2112.02418},
  archivePrefix = {arXiv},
  eprint = {2112.02418},
  primaryClass = {cs.SD},
  adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
  adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}

ICMLで公開された論文

 @inproceedings{casanova2022yourtts,
  title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
  author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
  booktitle={International Conference on Machine Learning},
  pages={2709--2720},
  year={2022},
  organization={PMLR}
}

拡大する

追加情報