最近の論文では、Yourttsモデルを提案しています。 Yourttsは、ゼロショットマルチスピーカーTTSのタスクに多言語アプローチの力をもたらします。私たちの方法は、VITSモデルに基づいて構築され、ゼロショットマルチスピーカーと多言語トレーニングのためのいくつかの新しい変更を追加します。 VCTKデータセットでのゼロショット音声変換でSOTAに匹敵するゼロショットマルチスピーカーTTSと結果を得る最先端の(SOTA)結果を達成しました。さらに、私たちのアプローチは、単一スピーカーデータセットを備えたターゲット言語で有望な結果を達成し、低リソース言語でゼロショットマルチスピーカーTTSおよびゼロショット音声変換システムの可能性を開きます。最後に、YourTTSモデルを1分未満の音声で微調整し、音声の類似性と妥当な品質で最先端の結果を達成することができます。これは、トレーニング中に見られたものとは非常に異なる音声または記録特性を持つスピーカーの合成を許可するために重要です。
YourTTSペーパーのセクション2では、スピーカーの一貫性損失(SCL)関数を定義しました。さらに、セクション3および4の4つの微調整実験でこの損失関数を使用しました(Exp。1 + SCL、Exp。2 + SCL、Exp。3 + SCL、およびExp。4 + SCL)。ただし、実装の間違いにより、この損失関数の勾配は、トレーニング中にモデルに伝播されませんでした。つまり、この損失を使用した微調整実験は、スピーカーの一貫性の損失なしに、より多くのステップのためにモデルをトレーニングすることと同等であることを意味します。このバグは、TomášNekvindaによって発見され、Coqui TTSリポジトリの発行番号2348について報告されました。このバグは、Coqui TTSリポジトリのプルリクエスト番号2364に修正されました。現在、Coqui TTSバージョンv0.12.0以上に固定されています。バグを見つけて報告してくれたTomášNekvindaに感謝します。
私たちの最新かつ最大のフルバンド英語のみのモデルhttps://coqui.ai/をお試しください
オーディオサンプルについては、当社のWebサイトにアクセスしてください。
すべての実験は、Coqui TTSリポジトリに実装されました。
| デモ | URL |
|---|---|
| ゼロショットTTS | リンク |
| ゼロショットVC | リンク |
| ゼロショットVC-実験1(VCTKだけで訓練されています) | リンク |
リリースされたすべてのチェックポイントは、CC by-nc-nd 4.0に基づいてライセンスされています
| モデル | URL |
|---|---|
| スピーカーエンコーダー | リンク |
| Exp1。Yourtts-en(vctk) | 利用不可 |
| Exp1。Yourtts-en(vctk) + scl | リンク |
| Exp2。Yourtts-en(vctk)-pt | 利用不可 |
| Exp2。Yourtts-en(vctk)-pt + scl | 利用不可 |
| Exp3。Yourtts-en(vctk)-pt-fr | 利用不可 |
| Exp3。Yourtts-en(vctk)-pt-fr scl | 利用不可 |
| Exp4。Yourtts-en(vctk+libritts)-pt-fr scl | 利用不可 |
使用するには? TTSバージョンv0.7.0テキストからスピーチのためにyourttsモデルをリリースしました。次のコマンドを使用します。
tts --text "This is an example!" --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --language_idx "en"
ターゲットスピーカーからの「Target_speaker_wav.wav」をオーディオサンプルを考慮します。
使用するには?音声変換のためのYourTTSモデルをリリースしたものは、次のコマンドを使用します。
tts --model_name tts_models/multilingual/multi-dataset/your_tts --speaker_wav target_speaker_wav.wav --reference_wav target_content_wav.wav --language_idx "en"
「Target_speaker_wav.wav.wav」スピーカーの音声に変換するための参照ウェーブファイルとして「target_content_wav.wav」を考慮します。
複製可能性を保証するために、ここで利用可能なMOを生成するために使用されるオーディオを作成します。さらに、ここで各オーディオにMOSを提供します。
MOSの結果を再生するには、こちらの指示に従ってください。テスト文を予測してSECを生成するには、こちらから入手可能なJupyterノートブックを使用してください。
Libritts(テストクリーン):1188、1995、260、1284、2300、237、908、1580、121、1089
VCTK:P261、P225、P294、P347、P238、P234、P248、P335、P245、P326およびP302
MLSポルトガル語:12710、5677、12249、12287、9351、11995、7925、3050、4367、1306
実験1を完全に複製するには、コキTTSに関するレシピを提供します。このレシピは、コードに変更を必要とせずに、スピーカーの埋め込みをダウンロード、リサンプ、スピーカーの埋め込みを抽出し、モデルをトレーニングします。
この記事は、Branch Multhingual-Torchaudio-Seで私のCoqui TTSフォークを使用して作成されました。
Coqui TTSの最新バージョンを使用する場合は、Coquiリリースモデルからconfig.jsonを取得できます。
config.jsonを手にすると、最初に「データセット」構成をデータセットに変更する必要があります。 config.jsonを使用して「datasets」構成を調整しました。次のコマンドを使用して、リリースしたスピーカーエンコーダーを使用してスピーカーのエンコーダーを使用してスピーカーのエンコーダーを抽出する必要があります: python3 TTS/bin/compute_embeddings.py --model_path model_se.pth.tar --config_path config_se.json --config_dataset_path config.json --output_path d_vector_file.json
"model_se.pth.tar"および "config_se.json"は、coqui.jsonがパスを設定したconfig.jsonである間、Coquiリリースモデルで見つけることができます。
変更すべきその他のパラメーターは、「config.json」にあります。
config.jsonがトレーニングを複製するように構成されたので、次のコマンドを使用できます(restore_path {checkpoint_path}を使用してチェックポイントから学習を転送し、トレーニングをスピードアップできます: python3 TTS/bin/train_tts.py --config_path config.json
@ARTICLE{2021arXiv211202418C,
author = {{Casanova}, Edresson and {Weber}, Julian and {Shulby}, Christopher and {Junior}, Arnaldo Candido and {G{"o}lge}, Eren and {Antonelli Ponti}, Moacir},
title = "{YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone}",
journal = {arXiv e-prints},
keywords = {Computer Science - Sound, Computer Science - Computation and Language, Electrical Engineering and Systems Science - Audio and Speech Processing},
year = 2021,
month = dec,
eid = {arXiv:2112.02418},
pages = {arXiv:2112.02418},
archivePrefix = {arXiv},
eprint = {2112.02418},
primaryClass = {cs.SD},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211202418C},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
@inproceedings{casanova2022yourtts,
title={Yourtts: Towards zero-shot multi-speaker tts and zero-shot voice conversion for everyone},
author={Casanova, Edresson and Weber, Julian and Shulby, Christopher D and Junior, Arnaldo Candido and G{"o}lge, Eren and Ponti, Moacir A},
booktitle={International Conference on Machine Learning},
pages={2709--2720},
year={2022},
organization={PMLR}
}