ดาวน์โหลด MSMC TTS - ดาวน์โหลดซอร์สโค้ด MSMC TTS

MSMC TTS

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

MSMC-TTS: Multi-Stage Multi-Codebook TTS

การใช้งานอย่างเป็นทางการของระบบเอกสาร MSMC-TTS

วิธี VQ-VAE แบบมัลติบุ๊กหลายขั้นตอนในการใช้ TTS ที่มีประสิทธิภาพสูง
สู่ TTs ประสาทคุณภาพสูงสำหรับภาษาที่มีทรัพยากรต่ำโดยการเรียนรู้การเป็นตัวแทนขนาดกะทัดรัด
QS-TTS: ไปสู่การสังเคราะห์ข้อความแบบข้อความกึ่งพูดคุยผ่านการเรียนรู้คำพูดที่ดูแลตนเองแบบเวกเตอร์

MSMC-TTS ล่าสุด (MSMC-TTS-V2) ได้รับการปรับให้เหมาะสมด้วย AutoEncoder ที่ใช้ MSMC-VQ-stan รวม MSMC-VQ-VAE และ Hifigan ตัวทำนายหลายขั้นตอนยังคงใช้เป็นแบบจำลองอะคูสติกเพื่อทำนาย MSMCRs สำหรับการสังเคราะห์ TTS อวตาร

ข่าว

[2024.04.10] (อยู่ระหว่างดำเนินการ) การใช้งานของ QS-TTS มีอยู่ที่ตัวอย่าง/CSMSC/configs

[2022.10.20] เราเปิดตัว MSMC-TTS เวอร์ชันล่าสุด (MSMC-TTS-V2) ตาม MSMC-VQ-GAN โปรดดูบทความล่าสุดของเรา "ไปสู่ TTs ประสาทคุณภาพสูงสำหรับภาษาที่มีทรัพยากรต่ำโดยการเรียนรู้การเป็นตัวแทนขนาดกะทัดรัด"

[2022.10.18] เราจะปล่อยรหัสของ MSMC-TTS ทุกรุ่นใน repo นี้ และทุกคนที่สนใจในงานนี้ยินดีที่จะเข้าร่วมกับเราเพื่อสำรวจการเป็นตัวแทนการพูดที่มีประโยชน์มากขึ้นสำหรับการสังเคราะห์คำพูด

[2022.9.22] "วิธีการ VQ-VA-VA-VA-VA-VA-VA แบบหลายขั้นตอนเพื่อตีพิมพ์ TTS ที่มีประสิทธิภาพสูง" ถูกตีพิมพ์ที่ Interspeech 2022

การใช้งาน

 # Install
pip -r requirements.txt

# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis

# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts

เคล็ดลับ

ช่วยให้คุณฝึกฝนนางแบบให้ดีขึ้น!

msmc-vq-gan

ระวังความกะทัดรัดของการเป็นตัวแทนของคุณ สำหรับ TTS มาตรฐานลำโพงเดี่ยวคุณสามารถลอง 2-4 หัวซึ่งแต่ละหัวอาจมี 64-256 codewords
โปรดใช้ codewords ให้น้อยลงหากขนาดแบทช์ของคุณเล็กเกินไปมิฉะนั้นขนาดเฟรมของแบทช์ไม่เพียงพอที่จะรองรับการอัปเดต Codebook แบบไดนามิก
คุณอาจเปลี่ยนน้ำหนักของการสูญเสียเข้ารหัสหากคุณพบว่าบางขั้นตอนใน MSMC-VQ-GAN เรียนรู้อะไรเลย

ตัวทำนายหลายขั้นตอน

การสูญเสียทริปเล็ตสามารถปรับปรุงการแสดงออกของ TT แต่อาจลดความราบรื่น คุณอาจลองน้ำหนักการสูญเสียแฝดที่แตกต่างกันเช่น 0, 0.01, 0.1, 1 เพื่อค้นหาประสิทธิภาพที่สมดุลที่สุด
สำหรับชุดข้อมูลที่มีทรัพยากรต่ำโปรดใช้โมเดลขนาดเล็กเพื่อหลีกเลี่ยงการกระชับ Early-stop ยังเป็นเคล็ดลับที่มีประโยชน์

การอ้างอิง

@inproceedings{guo2022msmc,
  title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
  author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
  booktitle={Proc. INTERSPEECH},
  year={2022}
}