gmvae_tacotronダウンロードgmvae_tacotronソースコードのダウンロード

gmvae_tacotron

AI ソースコード

1.0.0

ダウンロード

Gmvae Tacotron-2：

制御可能な音声合成のための階層的生成モデリングのTensorflow非公式の実装

リポジトリ構造：

 Tacotron-2
├── datasets
├── LJSpeech-1.1	(0)
│   └── wavs
├── logs-Tacotron	(2)
│   ├── mel-spectrograms
│   ├── plots
│   ├── pretrained
│   └── wavs
├── papers
├── tacotron
│   ├── models
│   └── utils
├── tacotron_output	(3)
│   ├── eval
│   ├── gta
│   ├── logs-eval
│   │   ├── plots
│   │   └── wavs
│   └── natural
└── training_data	(1)
    ├── audio
    └── mels

前のツリーは、リポジトリの現在の状態を示しています。

ステップ（0） ：データセットを取得してください。ここでは、 ljspeechの例を設定しました。
ステップ（1） ：データを前処理します。これにより、 Training_Dataフォルダーが提供されます。
ステップ（2） ：タコトロンモデルをトレーニングします。 logs-tacotronフォルダーが生成されます。
ステップ（3） ：タコトロンモデルを合成/評価します。 tacotron_outputフォルダーを提供します。

要件

まず、Tensorflow v1.6とともにPython 3.5をインストールする必要があります。

次に、要件をインストールできます。

PIPインストール-R要件。txt

それ以外：

PIP3インストール-R要件。txt

データセット：

このレポは、ljspeechデータセットでテストされています。

前処理

次の手順を実行する前に、 Tacotron-2フォルダー内にいることを確認してください

CDタコトロン-2

その後、プリプロセシングを使用して開始できます。

python preprocess.py

または

python3 preprocess.py

データセットは、 -dataset引数を使用して選択できます。デフォルトはljspeechです。

トレーニング：

機能予測モデルは、以下を使用してトレーニングできます。

python train.py - model = 'tacotron'

または

python3 train.py - model = 'tacotron'

合成

スペクトログラム予測ネットワーク（Tacotron）には、MELスペクトログラム合成には3種類あります。

評価（カスタム文の合成）。これは、フルエンドツーエンドモデルを持っている後に通常使用するものです。

python sinthesizeze.py - model = 'tacotron' - mode = 'eval' - reference_audio = 'ref_1.wav'

または

Python3 Synthesizeize.py - model = 'tacotron' - mode = 'eval' - reference_audio = 'ref_1.wav'

注記：

この実装は、すべてのシナリオで完全にテストされていませんが、参照オーディオの動作を伴うトレーニングと合成。
ただし、GTAなしで、およびevalモードでのみ合成でテストされました。
ljspeechで32バッチサイズで250kのステップをトレーニングした後、KLエラーはゼロに近づきました（0.001前後）スタイルの転送とコントロールはまだ得られません。このモデルは、表現力のあるデータセットではなく、24時間しかないLJSpeechでトレーニングされているため、 Blizzard 2013 voice datasetのような表現型データセットのような表現的なデータセットで良い結果を生み出す可能性があります。
私のテストでは、スタイルの転送側でこれまでのところ良い結果が得られません。この実装はwavenetとWaveRNNと簡単に統合されています。
いくつかの変更を提案するか、PRをさらに上げることができます。