cs224n gpu that talks
1.0.0
基于Tachibana等的基于卷积SEQ2SEQ的卷积SEQ2SEQ模型的实现。 al。 (2017)。给定一系列字符,该模型在两个阶段(Text2Mel和SSRN)中预测了一系列频谱图框架。
如报告中所述,我们可以通过培训60k步骤的Text2Mel获得相当不错的音频质量,SSRN以100K步骤。这对应于在LJ语音数据集上的单个Tesla K80 GPU上进行大约(6+12)小时的培训。
预验证的模型:[下载]样本:[base-model-m4]
有关更多详细信息,请参见:海报纸
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
使用python <script_file>.py -h运行每个文件以查看用法详细信息。
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(从src/ init .py中)已从以下来源引用实用性代码,所有其他代码都是作者自己的: