Transformer Text To Speech
1.0.0
テキストからスピーチ(TTS)システムは、通常の言語テキストを音声に変換します。他のシステムは、音声転写などの象徴的な言語表現を音声に変えます。現在、深い学習の最近の開発により、テキストを人間に理解できない声に変換することが可能です。このため、テキストはエンコーダーデコーダータイプのニューラルネットワークに供給され、メルスペクトルグラムを出力します。このメルスペクトルグラムを使用して、「Griffin-Limアルゴリズム」を使用してオーディオを生成できるようになりました。しかし、人間のような音声品質を生成できないという不利な点のため、Wavenetという名前の別のニューラルネットが採用されています。これは、人間でさえ区別できないオーディオを生成するためにメルスペクトルで供給されます。

*
このモデルは、WMT-2014 English-German Datasetのサブセットでトレーニングされました。前処理は、モデルをトレーニングする前に実行されました。
データセット:https://keithito.com/lj-sweech-dataset/