Implementasi Comospeech. Untuk semua detail, lihat makalah kami yang diterima untuk ACM MM 2023: Comospeech: Sintesis One-Step Speech dan Singing Voice melalui model konsistensi.
Penulis : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.
2024-04-26
2023-12-01
2023-11-30
2023-10-21
Halaman Demo : Tautan.
Model probabilistik difusi denoising (DDPMS) telah menunjukkan kinerja yang menjanjikan untuk sintesis bicara. Namun, sejumlah besar langkah iteratif diperlukan untuk mencapai kualitas sampel yang tinggi, yang membatasi kecepatan inferensi. Mempertahankan kualitas sampel sambil meningkatkan kecepatan pengambilan sampel telah menjadi tugas yang menantang. Dalam makalah ini, kami mengusulkan metode sintesis ucapan berbasis mo del , comospeech, yang mencapai sintesis bicara melalui langkah pengambilan sampel difusi tunggal sambil mencapai kualitas audio yang tinggi. Kendala konsistensi diterapkan untuk menyaring model konsistensi dari model guru berbasis difusi yang dirancang dengan baik, yang pada akhirnya menghasilkan kinerja superior dalam comospeech suling. Eksperimen kami menunjukkan bahwa dengan menghasilkan rekaman audio dengan langkah pengambilan sampel tunggal, Comospeech mencapai kecepatan inferensi lebih dari 150 kali lebih cepat daripada real-time pada GPU NVIDIA A100 tunggal, yang sebanding dengan FastSpeech2, membuat sintesis ucapan berbasis pengambilan sampel difusi benar-benar praktis. Sementara itu, evaluasi obyektif dan subyektif pada sintesis suara teks-ke-ucapan dan menyanyi menunjukkan bahwa model guru yang diusulkan menghasilkan kualitas audio terbaik, dan comospeech berbasis pengambilan sampel satu langkah mencapai kecepatan inferensi terbaik dengan kualitas audio yang lebih baik atau sebanding dengan model model difusi multi-langkah konvensional lainnya.
Bangun Kode monotonic_align (Cython):
cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../.. Jalankan skrip inference.py dengan memberikan jalur ke file teks, jalur ke pos pemeriksaan, jumlah pengambilan sampel:
python inference.py -f < text file > -c < checkpoint > -t < sampling steps > Lihat folder yang out untuk audio yang dihasilkan. Perhatikan bahwa dalam file params. Guru = Benar adalah untuk model guru kita, salah adalah untuk comospeech kita. Selain itu, kami menggunakan vocoder yang sama di Grad-TTS. Anda dapat mengunduhnya dan memasukkannya ke folder Checkpts.
Kami menggunakan dataset LJSPEECH dan mengikuti split train/test/val di fastspeech2, Anda dapat mengubah folder split di fs2_txt. Kemudian jalankan skrip train.py ,
python train.py Perhatikan bahwa dalam file params. Guru = Benar adalah untuk model guru kita, salah adalah untuk comospeech kita. Saat melatih Comospeech, direktori pos pemeriksaan guru harus disediakan.
Pos pemeriksaan yang dilatih di ljspeech dapat diunduh dari sini.
Saya ingin menyampaikan terima kasih khusus kepada penulis Grad-TTS, karena basis kode kami terutama dipinjam dari Grad-TTS.
Anda dipersilakan untuk mengirim permintaan tarik atau berbagi beberapa ide dengan saya. Informasi Kontak: Zhen Ye ([email protected])