cs224n gpu that talks การดาวน์โหลด - cs224n gpu that talks ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

cs224n gpu that talks

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

ความสนใจฉันกำลังพยายามพูด: การสังเคราะห์คำพูดแบบ end-to-end (CS224N '18)

การดำเนินการตามโมเดลข้อความที่ใช้ข้อความตามคำพูดที่ใช้ SEQ2Seq ตามแบบ convolutional ตาม Tachibana ET อัล (2017) ด้วยลำดับของอักขระโมเดลทำนายลำดับของเฟรมสเปกโทรครัมในสองขั้นตอน (text2mel และ SSRN)

ตามที่กล่าวไว้ในรายงานเราสามารถได้รับคุณภาพเสียงที่ดีพอสมควรด้วย Text2MEL ที่ได้รับการฝึกฝนสำหรับขั้นตอน 60K, SSRN สำหรับขั้นตอน 100K สิ่งนี้สอดคล้องกับการฝึกอบรมเกี่ยวกับ (6+12) เกี่ยวกับ Tesla K80 GPU เดียวในชุดข้อมูล LJ Speech

รุ่นก่อนหน้า : [ดาวน์โหลด] ตัวอย่าง : [Base-Model-M4] [Unsupervised-Decoder-M1]

สำหรับรายละเอียดเพิ่มเติมดู: กระดาษ โปสเตอร์

การใช้งาน:

โครงสร้างไดเรกทอรี

 - runs (contains checkpoints and params.json file for each different run. params.json specifies various hyperameters: see params-examples folder)
    - run1/params.json ...
 - src (implementation code package)
 - sentences (contains test sentences in .txt files)
 
train.py
evaluate.py
synthesize.py

../data (directory containing data in format below)
 - FOLDER
    - train.csv, val.csv (files containing [wav_file_name|transcript|normalized_trascript] as in LJ-Speech dataset)
    - wavs (folder containing corresponding .wav audio files)

ไฟล์สคริปต์

เรียกใช้แต่ละไฟล์ด้วย python <script_file>.py -h เพื่อดูรายละเอียดการใช้งาน

 python train.py <PATH_PARAMS.JSON> <MODE>
python evaluate.py <PATH_PARAMS.JSON> <MODE> 
python synthesize.py <TEXT2MEL_PARAMS> <SSRN_PARAMS> <SENTENCES.txt> (<N_ITER> <SAMPLE_DIR>)

สมุดบันทึก:

การประเมินผล : รันการทำนายแบบจำลองตลอดทั้งชุดการฝึกอบรมและการตรวจสอบความถูกต้องสำหรับจุดตรวจแบบจำลองที่บันทึกไว้ต่าง ๆ และบันทึกผลลัพธ์สุดท้าย
การสาธิต : พิมพ์ประโยคอินพุตแบบโต้ตอบและฟังเสียงเอาต์พุตที่สร้างขึ้น

ไกลออกไป:

การฝึกอบรมเกี่ยวกับภาษาต่าง ๆ ด้วยชุดข้อมูลที่มีอยู่จำนวนน้อยของภาษาอินเดีย
การสำรวจการใช้วิธีกึ่งผู้ดูแลเพื่อเร่งการฝึกอบรมโดยใช้ 'โมเดลภาษาเสียง' ที่ผ่านการฝึกอบรมมาก่อนเป็นการเริ่มต้น

รหัสภายนอกอ้างอิง:

(จาก SRC/ Init .py) รหัสยูทิลิตี้ได้รับการอ้างอิงจากแหล่งข้อมูลต่อไปนี้รหัสอื่น ๆ ทั้งหมดเป็นของผู้เขียน:

src/data_load.py, dsp_utils.py (พร้อมการแก้ไข)
https://www.github.com/kyubyong/dc_tts, (ผู้แต่ง: Kyubyong Park, @kyubyong) https://github.com/r9y9/deepvoice3_pytorch/blob/master/audio.py
src/spsi.py (อ้างอิง)
https://github.com/lonce/spsi_python (ผู้แต่ง: @lonce)
src/utils.py (อ้างอิง)
https://github.com/cs230-stanford/cs230-code-examples

ขยาย

ข้อมูลเพิ่มเติม