Text-to-speech (TTS) ได้เห็นความคืบหน้าอย่างมากในการสังเคราะห์คำพูดที่มีคุณภาพสูงเนื่องจากการพัฒนาอย่างรวดเร็วของระบบ TTS แบบขนาน แต่การผลิตคำพูดด้วยรูปแบบของฉันทลักษณ์ธรรมชาติการพูดและเสียงทางอารมณ์ยังคงท้าทาย ยิ่งไปกว่านั้นเนื่องจากระยะเวลาและการพูดถูกสร้างขึ้นแยกต่างหากโมเดล TTS แบบขนานยังคงมีปัญหาในการค้นหาการจัดตำแหน่งแบบโมโนโทนิกที่ดีที่สุดซึ่งมีความสำคัญต่อการสังเคราะห์การพูดแบบธรรมชาติ ที่นี่เราเสนอ Styletts แบบจำลองการกำเนิดตามสไตล์สำหรับ TTS แบบขนานที่สามารถสังเคราะห์การพูดที่หลากหลายด้วยฉันทลักษณ์ธรรมชาติจากคำพูดอ้างอิง ด้วยการปรับแต่งแบบโมโนโทนิกแบบใหม่ (TMA) และแผนการเสริมข้อมูลระยะเวลาที่ไม่แปรปรวนวิธีการของเรามีประสิทธิภาพสูงกว่าแบบจำลองที่ทันสมัยทั้งในชุดข้อมูลเดี่ยวและหลายลำโพงในการทดสอบอัตนัยของความเป็นธรรมชาติและความคล้ายคลึงกันของผู้พูด ผ่านการเรียนรู้ด้วยตนเองเกี่ยวกับรูปแบบการพูดแบบจำลองของเราสามารถสังเคราะห์การพูดด้วยน้ำพุฉันและอารมณ์เหมือนกันกับคำพูดอ้างอิงใด ๆ ที่ได้รับโดยไม่จำเป็นต้องติดฉลากหมวดหมู่เหล่านี้อย่างชัดเจน
กระดาษ: https://arxiv.org/abs/2107.10394
ตัวอย่างเสียง: https://styletts.github.io/
git clone https://github.com/yl4579/StyleTTS.git
cd StyleTTSpip install SoundFile torchaudio munch torch pydub pyyaml librosa git+https://github.com/resemble-ai/monotonic_align.gitการฝึกอบรมขั้นตอนแรก:
python train_first.py --config_path ./Configs/config.ymlการฝึกอบรมขั้นตอนที่สอง:
python train_second.py --config_path ./Configs/config.yml คุณสามารถเรียกใช้ทั้งสองติดต่อกันและมันจะฝึกอบรมทั้งขั้นตอนแรกและขั้นที่สอง โมเดลจะถูกบันทึกในรูปแบบ "epoch_1st_%05d.pth" และ "epoch_2nd_%05d.pth" จุดตรวจและบันทึก Tensorboard จะถูกบันทึกที่ log_dir
รูปแบบรายการข้อมูลจะต้องเป็น filename.wav|transcription ดู val_list_libritts.txt เป็นตัวอย่าง
โปรดดูที่การอนุมาน.ipynbสำหรับรายละเอียด
styletts pretrained และ hifi-gan บน ljspeech corpus ใน 24 kHz สามารถดาวน์โหลดได้ที่ลิงค์ Styletts และลิงก์ Hifi-Gan
สามารถดาวน์โหลด Styletts และ Hifi-Gan บน Libritts Corpus ได้ที่ลิงค์ Styletts และลิงก์ Hifi-Gan คุณต้องดาวน์โหลดการทดสอบทำความสะอาดจาก Libritts หากคุณต้องการเรียกใช้การสาธิต Zero-shot
โปรดคลายซิปกับ Models และ Vocoder ที่เกี่ยวข้องและเรียกใช้แต่ละเซลล์ในสมุดบันทึก คุณจะต้องติดตั้ง phonemizer เพื่อเรียกใช้การสาธิตการอนุมานนี้
ตัวจัดตำแหน่งข้อความที่ผ่านการฝึกอบรมและแบบจำลองเครื่องแยกพิทช์มีให้ภายใต้โฟลเดอร์ Utils ทั้งแบบจำลองการจัดตำแหน่งข้อความและตัวแยกพิทช์ได้รับการฝึกฝนด้วย melspectrograms ล่วงหน้าโดยใช้ meldataset.py
คุณสามารถแก้ไข meldataset.py ด้วยการประมวลผล melspectrogram preprocessing ของคุณเอง แต่โมเดลที่ได้รับการฝึกฝนที่ให้ไว้จะไม่ทำงานอีกต่อไป คุณจะต้องฝึกอบรมการจัดตำแหน่งข้อความของคุณเองและตัวแยกพิทช์ด้วยการประมวลผลล่วงหน้าใหม่
รหัสสำหรับการฝึกอบรมรูปแบบการจัดตำแหน่งข้อความใหม่มีให้ที่นี่และสำหรับการฝึกอบรมแบบจำลองเครื่องสกัดแบบพิทช์ใหม่มีให้ที่นี่
ฉันจะให้ข้อมูลเพิ่มเติมเกี่ยวกับการประมวลผลล่วงหน้าที่มีอยู่เช่นเดียวกับใน Hifigan และ Espnet อย่างเป็นทางการในอนาคตถ้าฉันมีเวลาพิเศษ หากคุณยินดีที่จะช่วยเหลืออย่าลังเลที่จะทำใบเสร็จรับเงินกับ ESPNET