cs224n gpu that talks
1.0.0
Tachibana et。アル。 (2017)。文字のシーケンスが与えられた場合、モデルは2つの段階(Text2MelとSSRN)で一連のスペクトログラムフレームを予測します。
レポートで説明したように、Text2Melが60kステップ、SSRNを100Kステップでトレーニングして、かなりまともなオーディオ品質を得ることができます。これは、LJ音声データセット上の単一のテスラK80 GPUでの約(6+12)時間のトレーニングに対応します。
事前に保護されたモデル:[ダウンロード]サンプル:[Base-Model-M4] [監視なしDecoder-M1]
詳細については、ポスターペーパーを参照してください
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
python <script_file>.py -hで各ファイルを実行して、使用状況の詳細を確認します。
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(SRC/ init.pyから)ユーティリティコードは次のソースから参照されています。他のすべてのコードは著者自身です。