AiVoice
1.0.0
これは、深い音声3:2000スピーカーのニューラルテキストのテキストからスピーチのTensorflow実装です。今のところ、単一のスピーカー合成に焦点を当てています。
LJ音声データセット
LJスピーチデータセットをダウンロードして解凍します。走る:
python prepro.py
注:データセットをprepro.pyの同じフォーラーに解凍したことを確認してください。
この後、3つの新しいフォルダーを取得します。
├── dones [New]
├── mags [New]
├── mels [New]
├── metadata.csv
├── README
└── wavs
./LJSpeech-1.0/magsデータは./LJSpeech-1.0/metadata.csvからロードさ./LJSpeech-1.0/mels ./LJSpeech-1.0/dones 。ローディングパスを変更したい場合は、 class Hyperparamsの構成を変更できます。
モデルをトレーニングするには、このコマンドを使用します。
python train.py
現在、良い結果を得ることができません。ただし、誰かがそれに興味を持っている場合に備えて、事前に訓練されたモデルを提供しています。
事前に訓練されたモデル。
その注意図は次のとおりです。
トレーニングで生成されたすべての注意数値は、事前に訓練されたモデルのziptipファイルに含まれています。
コードのほとんどは、Kyubyong/deepvoice3から借用されています。