sane tts
1.0.0
著者: Hyunjae Cho、Wonbin Jung、Junhyeok Lee、Sang Hoon Woo @Mindslab Inc.
要約:この論文では、Sane-TTS、安定した自然なエンドツーエンドの多言語TTSモデルを紹介します。特定のスピーカーの多言語コーパスを取得するのが難しいため、単一言語のコーパスで多言語TTSモデルをトレーニングすることは避けられません。他の多言語TTSモデルに適用されるドメインの敵対的トレーニングと同様に、言語間統合中の音声の自然性を改善するスピーカーの正規化損失を導入します。さらに、スピーカーの正規化損失を追加することにより、スピーカーの埋め込みを持続時間にゼロベクトルに置き換えると、予測因子が横断的推論を安定させます。この置換により、私たちのモデルは、言語統合のソーススピーカーに関係なく、中程度のリズムでスピーチを生成します。 MOS評価では、SANE-TTSは、間違い性と婚約内の合成の両方で3.80を超える自然性スコアを達成し、グラウンドトゥルーススコアは3.99です。また、SANE-TTSは、横断的な推論においても、地上の真実のスピーカーの類似性に近いスピーカーの類似性を維持します。オーディオサンプルは当社のWebページで入手できます。
| トレーニング手順 | 推論手順 |
|---|---|
![]() | ![]() |