ในบทความล่าสุดของเราเราเสนอ WG-Wavenet ซึ่งเป็นรูปแบบการสร้างรูปคลื่นที่รวดเร็วน้ำหนักเบาและคุณภาพสูง WG-Wavenet ประกอบด้วยแบบจำลองการไหลแบบกะทัดรัดและตัวกรองหลัง องค์ประกอบทั้งสองได้รับการฝึกฝนร่วมกันโดยเพิ่มโอกาสในการฝึกอบรมและเพิ่มประสิทธิภาพฟังก์ชั่นการสูญเสียในโดเมนความถี่ ในขณะที่เราออกแบบแบบจำลองการไหลที่มีการบีบอัดอย่างหนักโมเดลที่เสนอนั้นต้องการทรัพยากรการคำนวณน้อยกว่าเมื่อเทียบกับแบบจำลองการสร้างรูปคลื่นอื่น ๆ ในระหว่างการฝึกอบรมและการอนุมาน แม้ว่าโมเดลจะถูกบีบอัดอย่างมาก แต่โพสต์กรองจะรักษาคุณภาพของรูปคลื่นที่สร้างขึ้นไว้ การใช้งาน Pytorch ของเราสามารถผ่านการฝึกอบรมโดยใช้หน่วยความจำ GPU น้อยกว่า 8 GB และสร้างตัวอย่างเสียงในอัตรามากกว่า 5,000 kHz บน Nvidia 1080Ti GPU นอกจากนี้แม้ว่าการสังเคราะห์ CPU เราแสดงให้เห็นว่าวิธีการที่เสนอนั้นสามารถสร้างรูปคลื่นคำพูด 44.1 kHz ได้เร็วกว่าแบบเรียลไทม์ 1.2 เท่า การทดลองยังแสดงให้เห็นว่าคุณภาพของเสียงที่สร้างขึ้นนั้นเปรียบได้กับวิธีการอื่น
เยี่ยมชม demopage สำหรับตัวอย่างเสียง
ดาวน์โหลดคำพูด LJ ในตัวอย่างนี้อยู่ใน data/
สำหรับการฝึกอบรมให้เรียกใช้คำสั่งต่อไปนี้
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > ทำงานระหว่างดำเนินการ
เราจะรวมคำแนะนำนี้เข้ากับ Tacotron2 ข้อมูลเพิ่มเติมและการสาธิต colab จะวางจำหน่ายที่นี่