Download MSMC TTS - Download Kode Sumber MSMC TTS

MSMC TTS

Kode Sumber AI

1.0.0

Unduh

MSMC-TTS: Multi-tahap multi-codebook TTS

Implement resmi Sistem Makalah MSMC-TTS

Pendekatan multi-code-vae multi-stage untuk TTS saraf berkinerja tinggi
Menuju TTS Neural Berkualitas Tinggi untuk bahasa sumber daya rendah dengan mempelajari representasi ringkas
QS-TTS: Menuju Sintesis Teks-ke-Pidato Semi yang Diawasi melalui Pembelajaran Representasi Pidato-Mandiri Vektor

MSMC-TTS terbaru (MSMC-TTS-V2) dioptimalkan dengan autoencoder berbasis MSMC-VQ-GAN yang menggabungkan MSMC-VQ-VAE dan Hifigan. Prediktor multi-tahap masih diterapkan sebagai model akustik untuk memprediksi MSMCR untuk sintesis TTS. Avatar

Berita

[2024.04.10] (sedang berlangsung) Implementasi QS-TTS tersedia di Contoh/CSMSC/Configs

[2022.10.20] Kami merilis versi terbaru MSMC-TTS (MSMC-TTS-V2) berdasarkan MSMC-VQ-GAN. Silakan merujuk ke makalah terbaru kami "menuju TT saraf berkualitas tinggi untuk bahasa dengan sumber daya rendah dengan mempelajari representasi ringkas"

[2022.10.18] Kami akan merilis kode semua versi MSMC-TTS dalam repo ini. Dan siapa pun yang tertarik dengan pekerjaan ini dipersilakan untuk bergabung dengan kami untuk mengeksplorasi representasi pidato yang lebih berguna untuk sintesis ucapan.

[2022.9.

Penggunaan

 # Install
pip -r requirements.txt

# Train (Take the example of CSMSC, please refer to the example of CSMSC to prepare your training data)
python train.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Multi-GPU Training
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan.yaml
python train_dist.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml

# Test -- Analysis-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan.yaml -m examples/csmsc/checkpoints/msmc_vq_gan/model_800000 -t examples/csmsc/data/test_ae.yaml -o analysis_synthesis

# Test -- TTS-Synthesis
python infer.py -c examples/csmsc/configs/msmc_vq_gan_am.yaml -m examples/csmsc/checkpoints/msmc_vq_gan_am/model_200000 -t examples/csmsc/data/test_tts.yaml -o tts

Tips

Membantu Anda melatih model Anda dengan lebih baik!

MSMC-VQ-GAN

Hati -hati untuk kekompakan representasi Anda. Untuk TTS standar penutur tunggal, Anda dapat mencoba 2-4 kepala, yang masing-masing kepala dapat memiliki 64-256 kode.
Harap gunakan lebih sedikit codeword jika ukuran batch Anda terlalu kecil, jika tidak ukuran bingkai batch tidak cukup untuk mendukung pembaruan CodeBook dinamis.
Anda dapat mengubah berat kerugian encoder jika Anda menemukan bahwa beberapa tahapan dalam MSMC-VQ-GAN Anda tidak belajar apa pun.

Prediktor multi-tahap

Kehilangan triplet dapat meningkatkan ekspresi TTS, tetapi juga dapat menurunkan kehalusannya. Anda dapat mencoba bobot yang berbeda dari kehilangan triplet, seperti 0, 0,01, 0,1, 1, untuk menemukan kinerja yang paling seimbang.
Untuk kumpulan data dengan sumber daya rendah, silakan gunakan model yang lebih kecil untuk menghindari kelebihan pas. Stop dini juga merupakan trik yang berguna.

Kutipan

@inproceedings{guo2022msmc,
  title={A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS},
  author={Guo, Haohan and Xie, Fenglong and Soong, Frank K and Wu, Xixin and Meng, Helen},
  booktitle={Proc. INTERSPEECH},
  year={2022}
}