cs224n gpu that talks
1.0.0
Tachibana et 알. (2017). 일련의 문자가 주어지면 모델은 두 단계 (Text2mel 및 SSRN)로 스펙트럼 프레임 시퀀스를 예측합니다.
보고서에서 논의 된 바와 같이, 우리는 100k 단계의 SSRN을 위해 60k 단계로 훈련 된 Text2Mel을 사용하여 상당히 괜찮은 오디오 품질을 얻을 수 있습니다. 이것은 LJ 음성 데이터 세트에서 단일 테슬라 K80 GPU에 대한 약 (6+12)의 훈련에 해당합니다.
사전 예방 모델 : [다운로드] 샘플 : [Base-Model-M4] [비 감독 디코더 M1]
자세한 내용은 포스터 용지를 참조하십시오
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
python <script_file>.py -h 로 각 파일을 실행하여 사용법 세부 정보를 확인하십시오.
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(src/ init .py에서) 유틸리티 코드는 다음 소스에서 참조되었으며 다른 모든 코드는 저자 자체입니다.