daisy tts
1.0.0
Rendi Chevi 、 Alham Fikri Aji
Mbzuai
?紙のリンク| ?プロジェクトページ| ?コードがもうすぐです!
私たちはしばしば多面的な方法で感情を口頭で表現しますが、それらはその強度が異なる場合があり、単一としてだけでなく、感情の混合として表現される場合があります。この幅広い感情は、感情の構造モデルによく研究されており、さまざまな程度の強度を持つ一次感情の派生産物としてのさまざまな感情を表しています。この論文では、構造モデルに基づいたより広いスペクトルの感情をシミュレートするために、感情的なテキストからスピーチへのデザインを提案します。提案されたデザインであるDaisy-TTSには、感情的に分離可能な韻律埋め込みを感情の代理として学習するための韻律エンコーダーが組み込まれています。この感情表現により、モデルは次のようにシミュレートできます。(1)トレーニングサンプルから学んだ主要な感情、(2)一次感情の混合として、(3)感情埋め込みを拡大することにより、強度レベル、および(4)感情埋め込みを否定することにより極性。一連の知覚的評価を通じて、デイジーTTSは、ベースラインと比較して、全体的に高い感情的な音声の自然性と感情の知覚性を示しました。