cnn_vocoder
1.0.0
注:私はもうこのプロジェクトに取り組んでいません。 #9を参照してください。
この作業は、マルチヘッドの畳み込みニューラルネットワークを使用して、高速分光学的反転で説明されているM-CNNモデルからインスピレーションを受けています。著者らは、単純なアップサンプリングネットワークでさえ、スペクトログラム/Mel-Spectrogramから波形を合成するのに十分であることを示しています。
このレポでは、メルスペクトログラム機能よりも多くの情報が含まれているため、トレーニングモデルにスペクトログラム機能を使用します。ただし、スペクトログラムからメルスペクトルグラムへの変換は単なる線形投影であるため、基本的には、メルスペクトルグラムからシンプルなネットワーク予測スペクトログラムをトレーニングできます。また、Parametersを変更して、メルスペクトル機能からボコーダーをトレーニングできるようにすることもできます。
M-CNNと比較すると、私の提案されているネットワークにはいくつかの違いがあります。
$ pip install -r requirements.txt実験にはljspeechデータセットを使用しています。まだお持ちでない場合は、データセットをダウンロードしてどこかに配置してください。
その後、コマンドを実行して、実験用のデータセットを生成できます。
$ python preprocessing.py --samples_per_audio 20
--out_dir ljspeech
--data_dir path/to/ljspeech/dataset
--n_workers 4$ python train.py --out_dir ${output_directory}その他のトレーニングオプションについては、実行してください。
$ python train.py --help$ python gen_spec.py -i sample.wav -o out.npz$ python synthesis.py --model_path path/to/checkpoint
--spec_path out.npz
--out_path out.wavここで私の訓練を受けたモデルを入手できます。
この実装では、私のコードで説明されているように、Nvidia、Yamamoto、Yamamoto、Keith Itoのコードを使用しています。
mit