gmvae_tacotron
1.0.0
制御可能な音声合成のための階層的生成モデリングのTensorflow非公式の実装
Tacotron-2
├── datasets
├── LJSpeech-1.1 (0)
│ └── wavs
├── logs-Tacotron (2)
│ ├── mel-spectrograms
│ ├── plots
│ ├── pretrained
│ └── wavs
├── papers
├── tacotron
│ ├── models
│ └── utils
├── tacotron_output (3)
│ ├── eval
│ ├── gta
│ ├── logs-eval
│ │ ├── plots
│ │ └── wavs
│ └── natural
└── training_data (1)
├── audio
└── mels
前のツリーは、リポジトリの現在の状態を示しています。
まず、Tensorflow v1.6とともにPython 3.5をインストールする必要があります。
次に、要件をインストールできます。
PIPインストール-R要件。txt
それ以外:
PIP3インストール-R要件。txt
このレポは、ljspeechデータセットでテストされています。
次の手順を実行する前に、 Tacotron-2フォルダー内にいることを確認してください
CDタコトロン-2
その後、プリプロセシングを使用して開始できます。
python preprocess.py
または
python3 preprocess.py
データセットは、 -dataset引数を使用して選択できます。デフォルトはljspeechです。
機能予測モデルは、以下を使用してトレーニングできます。
python train.py - model = 'tacotron'
または
python3 train.py - model = 'tacotron'
スペクトログラム予測ネットワーク(Tacotron)には、MELスペクトログラム合成には3種類あります。
python sinthesizeze.py - model = 'tacotron' - mode = 'eval' - reference_audio = 'ref_1.wav'
または
Python3 Synthesizeize.py - model = 'tacotron' - mode = 'eval' - reference_audio = 'ref_1.wav'
注記:
evalモードでのみ合成でテストされました。Blizzard 2013 voice datasetのような表現型データセットのような表現的なデータセットで良い結果を生み出す可能性があります。wavenetとWaveRNNと簡単に統合されています。トト
進行中の作業