ความก้าวหน้าล่าสุดในการสังเคราะห์คำพูดได้ใช้ประโยชน์จากเครือข่าย GAN เช่น HIFI-GAN และ BIGVGAN เพื่อผลิตรูปคลื่นความเที่ยงตรงสูงจาก mel-spectrograms อย่างไรก็ตามเครือข่ายเหล่านี้มีราคาแพงและมีพารามิเตอร์หนัก ISTFTNET ระบุข้อ จำกัด เหล่านี้โดยการรวมการแปลงฟูริเยร์เวลาสั้น ๆ แบบผกผัน (ISTFT) เข้ากับเครือข่ายเพื่อให้ได้ทั้งความเร็วและประสิทธิภาพของพารามิเตอร์ ในบทความนี้เราแนะนำส่วนขยายไปยัง iTftnet เรียกว่า Hiftnet ซึ่งรวมเอาตัวกรองแหล่งกำเนิดฮาร์มอนิก-บวกกับโดเมนความถี่เวลาที่ใช้แหล่งไซน์จากความถี่พื้นฐาน (F0) ที่อนุมานผ่านเครือข่ายการประมาณค่า F0 ที่ได้รับการฝึกอบรมล่วงหน้า การประเมินแบบอัตนัยเกี่ยวกับ LJSpeech แสดงให้เห็นว่าแบบจำลองของเรามีประสิทธิภาพสูงกว่าทั้ง Istftnet และ Hifi-Gan ซึ่งทำให้ประสิทธิภาพการแสดงระดับพื้นดิน Hiftnet ยังมีประสิทธิภาพเหนือกว่า Bigvgan-base บน Libritts สำหรับลำโพงที่มองไม่เห็นและบรรลุประสิทธิภาพที่เทียบเท่ากับ Bigvgan ในขณะที่เร็วขึ้นสี่เท่าด้วยพารามิเตอร์เพียง 1/6 เพียง 1/6 งานของเรากำหนดเกณฑ์มาตรฐานใหม่สำหรับการเปล่งประกายประสาทที่มีประสิทธิภาพและมีคุณภาพสูงปูทางสำหรับการใช้งานแบบเรียลไทม์ที่ต้องการการสังเคราะห์การพูดที่มีคุณภาพสูง
กระดาษ: https://arxiv.org/abs/2309.09493
ตัวอย่างเสียง: https://hiftnet.github.io/
ตรวจสอบงาน TTS ของเราที่ใช้ Hiftnet เป็นตัวถอดรหัสคำพูดสำหรับการสังเคราะห์คำพูดระดับมนุษย์ที่นี่: https://github.com/yl4579/styletts2
git clone https://github.com/yl4579/HiFTNet.git
cd HiFTNetpip install -r requirements.txtpython train.py --config config_v1.json --[args]สำหรับการฝึกอบรมแบบจำลอง F0 โปรดดูที่ YL4579/PitchExtractor repo นี้รวมโมเดล F0 ที่ผ่านการฝึกอบรมมาก่อนเกี่ยวกับ Libritts ถึงกระนั้นคุณอาจต้องการฝึกอบรมโมเดล F0 ของคุณเองเพื่อประสิทธิภาพที่ดีที่สุดโดยเฉพาะอย่างยิ่งสำหรับข้อมูลที่มีเสียงดังหรือไม่พูดเนื่องจากเราพบว่าความแม่นยำในการประมาณค่า F0 เป็นสิ่งจำเป็นสำหรับประสิทธิภาพการทำงานของนักร้อง
โปรดดูที่การอนุมาน Notebook.Ipynb สำหรับรายละเอียด
คุณสามารถดาวน์โหลดรุ่น LJSpeech ที่ผ่านการฝึกอบรมมาแล้วที่นี่และรุ่น Libritts ที่ผ่านการฝึกอบรมมาก่อนที่นี่ โมเดลที่ผ่านการฝึกอบรมมาก่อนมีพารามิเตอร์ของตัวเพิ่มประสิทธิภาพและตัวเลือกจำนองที่สามารถใช้สำหรับการปรับจูน