เมื่อเห็นการใช้งานของฉันของ Tacotron และ DCTTS หลายคนถามฉันว่า "ชุดข้อมูลการพูดขนาดใหญ่ต้องการ TTS ของระบบประสาทมากแค่ไหน?" หรือ "คุณสามารถสร้างโมเดล TTS ด้วยข้อมูล X/นาทีของข้อมูลการฝึกอบรมได้หรือไม่?" ฉันตระหนักถึงความสำคัญของคำถามเหล่านั้นอย่างเต็มที่ เมื่อคุณวางแผนบริการโดยใช้ TTS มันไม่น่าจะได้รับตัวอย่างการพูดมากมาย ฉันต้องการให้คำตอบ ฉันทำจริงๆ แต่น่าเสียดายที่ฉันไม่มีคำตอบ สิ่งเดียวที่ฉันรู้คือฉันสามารถฝึกอบรมแบบจำลองได้สำเร็จด้วยตัวอย่างการพูดห้าชั่วโมงที่ฉันดึงออกมาจากหนังสือเสียงของ Kate Winslet ฉันไม่ได้ลองใช้ข้อมูลน้อยกว่านั้น ฉันสามารถลองได้ แต่จริง ๆ แล้วฉันมีความคิดที่ดีกว่า เนื่องจากฉันมีแบบจำลองที่ดีที่ได้รับการฝึกฝนด้วยชุดข้อมูล LJ Speech เป็นเวลาหลายวันทำไมฉันไม่ใช้มัน? ท้ายที่สุดเราทุกคนมีเสียงที่แตกต่างกัน แต่วิธีที่เราพูดภาษาอังกฤษไม่แตกต่างกันโดยสิ้นเชิง
ในสอง repos ข้างต้นฉันได้รับการฝึกอบรมแบบจำลอง TTS โดยใช้ตัวอย่างคำพูดทั้งหมดของดาราคนโปรดสองคนที่ฉันโปรดปราน Nick Offerman และ Kate Winslet ตั้งแต่เริ่มต้น ครั้งนี้ฉันใช้ตัวอย่างคำพูดเพียงหนึ่งนาที ต่อไปนี้เป็นตัวอย่างที่สังเคราะห์ขึ้นหลังจากการฝึกอบรมการปรับจูน 10 นาที คุณคิดว่าพวกเขาฟังดูเหมือนพวกเขาหรือไม่?
นอกจากนี้ฉันยังรวบรวมตัวอย่างการพูด 10 ตัวอย่างของคนดังในครอบครัวสมัยใหม่จาก YouTube และสร้างเสียงของพวกเขาฝึกอบรมตัวอย่างเหล่านั้น
ตรวจสอบที่นี่เพื่อดูรายละเอียดของโมเดลซอร์สโค้ดและโมเดลที่ทำไว้ล่วงหน้าซึ่งทำหน้าที่เป็นเมล็ด