cs224n gpu that talks
1.0.0
基於Tachibana等的基於卷積SEQ2SEQ的捲積SEQ2SEQ模型的實現。 al。 (2017)。給定一系列字符,該模型在兩個階段(Text2Mel和SSRN)中預測了一系列頻譜圖框架。
如報告中所述,我們可以通過培訓60k步驟的Text2Mel獲得相當不錯的音頻質量,SSRN以100K步驟。這對應於在LJ語音數據集上的單個Tesla K80 GPU上進行大約(6+12)小時的培訓。
預驗證的模型:[下載]樣本:[base-model-m4]
有關更多詳細信息,請參見:海報紙
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
使用python <script_file>.py -h運行每個文件以查看用法詳細信息。
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(從src/ init .py中)已從以下來源引用實用性代碼,所有其他代碼都是作者自己的: