ระบบ text-to-speech (TTS) แปลงข้อความภาษาปกติเป็นคำพูด ระบบอื่น ๆ ทำให้การเป็นตัวแทนทางภาษาที่เป็นสัญลักษณ์เช่นการถอดเสียงการออกเสียงเป็นคำพูด ตอนนี้ด้วยการพัฒนาเมื่อเร็ว ๆ นี้ในการเรียนรู้อย่างลึกซึ้งเป็นไปได้ที่จะแปลงข้อความเป็นเสียงที่มนุษย์เข้าใจได้ สำหรับสิ่งนี้ข้อความจะถูกป้อนเข้าสู่เครือข่ายระบบประสาทแบบตัวเข้ารหัสเพื่อส่งออก mel-spectrogram ตอนนี้ mel-spectrogram นี้สามารถใช้เพื่อสร้างเสียงโดยใช้ "อัลกอริทึม Griffin-Lim" แต่เนื่องจากข้อเสียของมันว่ามันไม่สามารถผลิตคุณภาพการพูดเหมือนมนุษย์ตาข่ายประสาทอีกชื่อหนึ่งชื่อ Wavenet ถูกจ้างซึ่งถูกเลี้ยงโดย mel-spectrogram เพื่อผลิตเสียงที่แม้แต่มนุษย์ก็ไม่สามารถแยกความแตกต่างได้

-
โมเดลได้รับการฝึกฝนในชุดย่อยของชุดข้อมูล WMT-2014 ภาษาอังกฤษ-เยอรมัน การประมวลผลล่วงหน้าได้ดำเนินการก่อนการฝึกอบรมแบบจำลอง
ชุดข้อมูล: https://keithito.com/lj-speech-dataset/