ในบทความล่าสุดของเราเราเสนอ Glow-TTS: กระแสการกำเนิดสำหรับข้อความเป็นคำพูดผ่านการค้นหาการจัดตำแหน่งแบบโมโนโทนิก
เมื่อเร็ว ๆ นี้รุ่น Text-to-Speech (TTS) เช่น Fastspeech และ Paranet ได้รับการเสนอเพื่อสร้าง mel-spectrograms จากข้อความในแบบขนาน แม้จะมีข้อได้เปรียบ แต่โมเดล TTS แบบขนานไม่สามารถผ่านการฝึกอบรมได้หากไม่มีคำแนะนำจากโมเดล TTS แบบอัตโนมัติในฐานะผู้จัดตำแหน่งภายนอก ในงานนี้เราเสนอ Glow-TTS ซึ่งเป็นแบบจำลองการไหลแบบที่ใช้การไหลสำหรับ TTS แบบขนานที่ไม่ต้องการการจัดตำแหน่งภายนอกใด ๆ ด้วยการรวมคุณสมบัติของการไหลและการเขียนโปรแกรมแบบไดนามิกโมเดลที่เสนอจะค้นหาการจัดตำแหน่งแบบโมโนโทนิกที่น่าจะเป็นไปได้มากที่สุดระหว่างข้อความและการแสดงคำพูดแฝงด้วยตัวเอง เราแสดงให้เห็นว่าการบังคับใช้การจัดตำแหน่งแบบโมโนโทนิกอย่างหนักช่วยให้ TTS ที่มีประสิทธิภาพซึ่งพูดคุยกับคำพูดที่ยาวนานและการใช้กระแสไฟฟ้าที่เกิดขึ้นทำให้การสังเคราะห์คำพูดที่รวดเร็วหลากหลายและควบคุมได้ Glow-TTS ได้รับการจัดลำดับความสำคัญของการเพิ่มความเร็วเหนือโมเดล Autoregressive, Tacotron 2, ที่การสังเคราะห์ด้วยคุณภาพการพูดที่เทียบเคียงได้ เราแสดงให้เห็นว่าโมเดลของเราสามารถขยายไปยังการตั้งค่าหลายลำโพงได้อย่างง่ายดาย
เยี่ยมชมตัวอย่างของเราสำหรับตัวอย่างเสียง
นอกจากนี้เรายังให้แบบจำลองที่ผ่านการฝึกอบรม
| Glow-TTS ในการฝึกอบรม | Glow-tts ที่การอนุมาน |
|---|---|
![]() | ![]() |
ผลลัพธ์นี้ไม่รวมอยู่ในกระดาษ เมื่อเร็ว ๆ นี้เราพบว่าการดัดแปลงสองครั้งช่วยปรับปรุงคุณภาพการสังเคราะห์ของ Glow-TTS; 1) การย้ายไปยังนักร้อง, hifi-gan เพื่อลดเสียงรบกวน 2) วางโทเค็นว่างระหว่างโทเค็นอินพุตสองตัวเพื่อปรับปรุงการออกเสียง โดยเฉพาะเราใช้นักร้องที่ปรับแต่งอย่างละเอียดด้วย Tacotron 2 ซึ่งจัดทำขึ้นเป็นแบบจำลองที่ได้รับการฝึกฝนใน repo hifi-gan หากคุณสนใจโปรดฟังตัวอย่างในการสาธิตของเรา
สำหรับการเพิ่มโทเค็นเปล่าเรามีไฟล์กำหนดค่าและโมเดลที่ผ่านการฝึกอบรม นอกจากนี้เรายังให้ตัวอย่างการอนุมานการอนุมาน _hifigan.ipynb คุณอาจต้องเริ่มต้น submodule hifi-gan: git submodule init; git submodule update
สำหรับการฝึกอบรมแบบผสมผสานเราใช้ Apex; commit: 37cdaf4
a) ดาวน์โหลดและแยกชุดข้อมูลคำพูด LJ จากนั้นเปลี่ยนชื่อหรือสร้างลิงก์ไปยังโฟลเดอร์ชุดข้อมูล: ln -s /path/to/LJSpeech-1.1/wavs DUMMY
b) เริ่มต้น waveglow submodule: git submodule init; git submodule update
อย่าลืมดาวน์โหลดโมเดล Waveglow ที่ผ่านการฝึกฝนแล้ววางลงในโฟลเดอร์ Waveglow
C) สร้างรหัสการค้นหาการจัดตำแหน่งแบบโมโนโทนิก (Cython): cd monotonic_align; python setup.py build_ext --inplace
sh train_ddi.sh configs/base.json baseดู inference.ipynb
การดำเนินการของเราได้รับอิทธิพลอย่างมากจาก repos ต่อไปนี้: