นี่คือการใช้ Tensorflow ของ Deep Voice 3: 2000-Speaker Neural Text-to-Speech สำหรับตอนนี้เราแค่มุ่งเน้นไปที่การสังเคราะห์ลำโพงเดี่ยว
ชุดข้อมูลคำพูด LJ
ดาวน์โหลดและคลายซิปชุดข้อมูล LJ Speech วิ่ง:
python prepro.py
หมายเหตุ: ตรวจสอบให้แน่ใจว่าเราได้คลายชุดข้อมูลลงใน prepro.py เดียวกัน
หลังจากนี้เราจะได้รับโฟลเดอร์ใหม่สามโฟลเดอร์:
├── dones [New]
├── mags [New]
├── mels [New]
├── metadata.csv
├── README
└── wavs
ข้อมูลการฝึกอบรมถูกโหลดจาก ./LJSpeech-1.0/metadata.csv , ./LJSpeech-1.0/mels , ./LJSpeech-1.0/dones , ./LJSpeech-1.0/mags เป็นค่าเริ่มต้น หากเราต้องการเปลี่ยนเส้นทางการโหลดเราสามารถเปลี่ยน config ใน class Hyperparams
ในการฝึกอบรมแบบจำลองเราใช้คำสั่งนี้:
python train.py
ขณะนี้เราไม่สามารถได้รับผลลัพธ์ที่ดี อย่างไรก็ตามเรายังคงให้แบบจำลองที่ผ่านการฝึกอบรมมาก่อนในกรณีที่มีคนสนใจ
รูปแบบที่ผ่านการฝึกอบรมมาก่อน
ตัวเลขความสนใจของมันมีดังนี้:
ตัวเลขความสนใจทั้งหมดที่สร้างขึ้นในการฝึกอบรมจะรวมอยู่ในไฟล์ซิปรุ่นที่ผ่านการฝึกอบรมมาก่อน
รหัสส่วนใหญ่ยืมมาจาก Kyubyong/Deepvoice3