dc_ttsダウンロードdc_ttsソースコードのダウンロード

dc_tts

AI ソースコード

1.0.0

ダウンロード

DC-TTSのTensorFlow実装：さらに別のテキストからスピーチモデル

私は、誘導された注意を払った深い畳み込みネットワークに基づいて、効率的にトレーニング可能なテキストからスピーチへのスピーチシステムで導入された、さらに別のテキストからスピーチへのモデルであるDC-TTSを実装しています。しかし、私の目標は、論文を複製するだけではありません。むしろ、さまざまなサウンドプロジェクトについての洞察を得たいと思います。

要件

numpy> = 1.11.1
Tensorflow> = 1.3（ tf.contrib.layers.layer_normのAPIが1.3以降変更されていることに注意してください）
リブーザ
TQDM
matplotlib
scipy

データ

4つの異なる音声データセットで英語モデルと韓国モデルをトレーニングします。

1。LJ音声データセット
2。ニック・オファーマンのオーディオブック
3。ケイトウィンスレットのオーディオブック
4。KSSデータセット

LJ Speech Datasetは最近、TTSタスクのベンチマークデータセットとして広く使用されており、公開されており、24時間の合理的な品質サンプルがあります。 Nick'sとKateのオーディオブックは、モデルがより少ないデータ、可変音声サンプルでも学習できるかどうかを確認するためにさらに使用されます。それらはそれぞれ18時間5時間です。最後に、KSSデータセットは、12時間以上続く韓国の単一スピーカー音声データセットです。

トレーニング

ステップ0。LJスピーチデータセットをダウンロードするか、独自のデータを準備します。
ステップ1。HyperParams.pyのhyperparams.pyパラメーターを調整します。（前処理をしたい場合は、pretro true `を設定します。
ステップ2。Text2Melのトレーニング用にpython train.py 1実行します。（Pretro Trueを設定した場合は、Python Prepro.pyを最初に実行します）
ステップ3。SSRNをトレーニングするためにpython train.py 2実行します。

複数のGPUカードがある場合は、ステップ2と3を同時に実行できます。

トレーニング曲線

注意プロット

サンプル合成

元の論文と同じように、ハーバードの文に基づいて音声サンプルを生成します。すでにリポジトリに含まれています。

synthesize.pyを実行し、 samplesでファイルを確認します。

生成されたサンプル

データセット	サンプル
LJ	50K 200K 310K 800K
ニック	40K 170K 300K 800K
ケイト	40K 160K 300K 800K
KSS	400k

LJの前提型モデル

これをダウンロードしてください。

メモ

論文は正規化については言及していませんでしたが、正規化がなければ機能させることができませんでした。そこで、レイヤーの正規化を追加しました。
論文は学習率を0.001に修正しましたが、それは私にとってはうまくいきませんでした。だから私はそれを腐敗させた。
Text2MelとSSRNを同時にトレーニングしようとしましたが、機能しませんでした。これらの2つのネットワークを分離すると、トレーニングの負担が軽減されると思います。
著者は、モデルは1日以内に訓練できると主張したが、残念ながら運は私のものではなかった。しかし、明らかに、これは畳み込み層のみを使用するため、タコトロンよりもはるかにお気に入りです。
ガイド付きの注意のおかげで、注意プロットは最初からほぼ単調に見えます。これは、アリジュメントをしっかりと保持しているように思われるので、トラックを失うことはありません。
論文はドロップアウトについて言及していませんでした。正規化に役立つと思うので、私はそれらを適用しました。
タコトロンやディープボイス3などの他のTTSモデルも確認してください。

拡大する

追加情報