cs224n gpu that talks
1.0.0
การดำเนินการตามโมเดลข้อความที่ใช้ข้อความตามคำพูดที่ใช้ SEQ2Seq ตามแบบ convolutional ตาม Tachibana ET อัล (2017) ด้วยลำดับของอักขระโมเดลทำนายลำดับของเฟรมสเปกโทรครัมในสองขั้นตอน (text2mel และ SSRN)
ตามที่กล่าวไว้ในรายงานเราสามารถได้รับคุณภาพเสียงที่ดีพอสมควรด้วย Text2MEL ที่ได้รับการฝึกฝนสำหรับขั้นตอน 60K, SSRN สำหรับขั้นตอน 100K สิ่งนี้สอดคล้องกับการฝึกอบรมเกี่ยวกับ (6+12) เกี่ยวกับ Tesla K80 GPU เดียวในชุดข้อมูล LJ Speech
รุ่นก่อนหน้า : [ดาวน์โหลด] ตัวอย่าง : [Base-Model-M4] [Unsupervised-Decoder-M1]
สำหรับรายละเอียดเพิ่มเติมดู: กระดาษ โปสเตอร์
- runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
- run1/params.json ...
- src (implementation code package)
- sentences (contains test sentences in .txt files)
train.py
evaluate.py
synthesize.py
../data (directory containing data in format below)
- FOLDER
- train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
- wavs (folder containing corresponding .wav audio files)
เรียกใช้แต่ละไฟล์ด้วย python <script_file>.py -h เพื่อดูรายละเอียดการใช้งาน
python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE>
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)
(จาก SRC/ Init .py) รหัสยูทิลิตี้ได้รับการอ้างอิงจากแหล่งข้อมูลต่อไปนี้รหัสอื่น ๆ ทั้งหมดเป็นของผู้เขียน: