การดำเนินการอย่างเป็นทางการของ Learn2Sing 2.0 สำหรับรายละเอียดทั้งหมดตรวจสอบบทความของเราซึ่งได้รับการยอมรับจาก Interspeech 2022 ผ่านลิงค์นี้
ผู้เขียน : Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao BI
หน้าสาธิต : ลิงค์
การสร้างคลังร้องเพลงที่มีคุณภาพสูงสำหรับคนที่ไม่เก่งในการร้องเพลงนั้นไม่ใช่เรื่องน่าประหลาดใจจึงทำให้มันท้าทายที่จะสร้างซินธิไซเซอร์เสียงร้องเพลงสำหรับบุคคลนี้ Learn2Sing ทุ่มเทเพื่อสังเคราะห์เสียงร้องเพลงของผู้พูดโดยไม่ต้องใช้ข้อมูลการร้องเพลงของเขาหรือเธอโดยการเรียนรู้จากข้อมูลที่บันทึกโดยผู้อื่นเช่นครูสอนร้องเพลง แรงบันดาลใจจากข้อเท็จจริงที่ว่าพิทช์เป็นปัจจัยสำคัญในการแยกแยะการร้องเพลงจากการพูดเสียงการเรียนรู้ที่นำเสนอ 2Sing 2.0 เป็นครั้งแรกสร้างคุณสมบัติอะคูสติกเบื้องต้นที่มีค่าเฉลี่ยระดับเสียงในระดับโทรศัพท์ซึ่งช่วยให้การฝึกอบรมกระบวนการนี้สำหรับสไตล์ที่แตกต่างกันเช่นการพูดหรือร้องเพลง จากนั้นปรับอากาศตามสไตล์เฉพาะตัวถอดรหัสการแพร่กระจายซึ่งเร่งด้วยอัลกอริทึมการสุ่มตัวอย่างที่รวดเร็วในระหว่างขั้นตอนการอนุมานจะถูกนำมาใช้เพื่อค่อยๆฟื้นฟูคุณสมบัติอะคูสติกสุดท้าย ในระหว่างการฝึกอบรมเพื่อหลีกเลี่ยงความสับสนของข้อมูลการฝังผู้พูดและการฝังสไตล์ข้อมูลร่วมกันถูกนำมาใช้เพื่อยับยั้งการเรียนรู้การฝังลำโพงและการฝังสไตล์ การทดลองแสดงให้เห็นว่าวิธีการที่เสนอนั้นมีความสามารถในการสังเคราะห์เสียงร้องเพลงคุณภาพสูงสำหรับลำโพงเป้าหมายโดยไม่ต้องร้องเพลงด้วยข้อมูลการถอดรหัส 10 ขั้นตอน
แทนที่ชุดโทรศัพท์และ pitchSet ในข้อความ/สัญลักษณ์ py ด้วยชุดของคุณเอง
จัดเตรียมพา ธ ไปยังข้อมูลใน config.json โฟลเดอร์ testData มีไฟล์ตัวอย่างเพื่อแสดงรูปแบบ
การฝึกอบรม
bash run.sh
การอนุมาน
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True