LightSpeech
1.0.0
明るいスピーチの非公式のPytorch実装:ニューラルアーキテクチャ検索による音声から速いテキスト。このレポは、ESPNETのFastSpeech 2実装をベースとして使用します。このレポは、紙に記載されているように、ニューラルアーキテクチャ検索ではなく、Lightspeechモデルの最終バージョンのみを実装します。
But I am able to compress only 3x (from 27 M to 7.99 M trainable parameters) not 15x。
Python 3.6.2で記述されたすべてのコード。
Pytorchをインストールする前に、次のコマンドを実行してCUDAバージョンを確認してください:
nvcc --version
pip install torch torchvision
このレポでは、Pytorchの以前のバージョンには存在しないtorch.bucketize機能にPytorch 1.6.0を使用しました。
pip install -r requirements.txt
tensorboard version 1.14.0をサポートしたtensorflow (1.14.0)をインストールする filelistsフォルダーには、MFA(Motreal Force Aligner)処理されたLJSpeech Datasetファイルが含まれているため、LJSpeech Datasetのオーディオ(抽出期間用)にテキストを合わせる必要はありません。他のデータセットについては、ここで命令をフォローしてください。次のコマンドを次のように処理する他の処理実行の場合:
python .nvidia_preprocessing.py -d path_of_wavs -c configs/default.yaml
F0とエネルギーの最小と最大を見つけるために
python .compute_statistics.py
hparams.pyで以下を更新します。
p_min = Min F0/pitch
p_max = Max F0
e_min = Min energy
e_max = Max energy
python train_lightspeech.py --outdir etc -c configs/default.yaml -n "name"
wip
python .inference.py -c .configsdefault.yaml -p .checkpointsfirst_1xyz.pyt --out output --text "ModuleList can be indexed like a regular Python list but modules it contains are properly registered."
python export_torchscript.py -c configs/default.yaml -n fastspeech_scrip --outdir etc