e3 vits
1.0.0
サンプルはgithubページで入手できます!!!
タイトル: E3-vits:クロススピーカースタイルの転送を備えた感情的なエンドツーエンドTTS(紙リンク)
要約:以前の感情的なTTSモデルは2段階のパイプラインまたは追加のラベルに基づいているため、トレーニングプロセスは複雑で、高いラベルコストが必要です。この問題に対処するために、このペーパーでは、既存のモデルの制限に対処するエンドツーエンドの感情TTSモデルであるE3-vitsを紹介します。 E3-vitsは、マルチスピーカー条件の高品質のスピーチを合成し、参照音声とテキストの説明に基づいた感情的な音声合成の両方をサポートし、分離データセットでクロススピーカーの感情転送を可能にします。 E3-vitsを実装するために、バッチ透過型スタイルの摂動を提案します。これにより、クロススピーカーの感情移転の品質を高めるために、対応のない感情を備えたオーディオサンプルを生成します。結果は、E3-VITSが自然性、スピーカー、感情の類似性、および推論速度の観点からベースラインモデルよりも優れていることを示しています。