Unduh CoMoSpeech - Unduh Kode Sumber CoMoSpeech

CoMoSpeech

Kode Sumber AI

1.0.0

Unduh

Comospeech

Implementasi Comospeech. Untuk semua detail, lihat makalah kami yang diterima untuk ACM MM 2023: Comospeech: Sintesis One-Step Speech dan Singing Voice melalui model konsistensi.

Penulis : Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, Yike Guo.

Memperbarui

2024-04-26

Kami mengusulkan flashspeech , synthesizer ucapan nol-shot yang efisien berdasarkan model konsistensi laten dan pelatihan permusuhan. (Kertas).

2023-12-01

Kami juga mengusulkan versi konversi suara bernyanyi (SVC) yang dirancang dengan baik berdasarkan model konsistensi (kode).

2023-11-30

Kami menemukan bahwa noise Gaussian nol-rata-rata alih-alih sebelumnya di Grad-TTS juga dapat mencapai kinerja yang sama. Kami juga merilis kode dan pos pemeriksaan baru.

2023-10-21

Kami menambahkan dukungan metode pesanan ke -2 Heun untuk model guru (dapat digunakan untuk pengambilan sampel model guru dan lintasan ode yang lebih baik untuk distilasi konsistensi).

Abstrak

Halaman Demo : Tautan.

Model probabilistik difusi denoising (DDPMS) telah menunjukkan kinerja yang menjanjikan untuk sintesis bicara. Namun, sejumlah besar langkah iteratif diperlukan untuk mencapai kualitas sampel yang tinggi, yang membatasi kecepatan inferensi. Mempertahankan kualitas sampel sambil meningkatkan kecepatan pengambilan sampel telah menjadi tugas yang menantang. Dalam makalah ini, kami mengusulkan metode sintesis ucapan berbasis mo del , comospeech, yang mencapai sintesis bicara melalui langkah pengambilan sampel difusi tunggal sambil mencapai kualitas audio yang tinggi. Kendala konsistensi diterapkan untuk menyaring model konsistensi dari model guru berbasis difusi yang dirancang dengan baik, yang pada akhirnya menghasilkan kinerja superior dalam comospeech suling. Eksperimen kami menunjukkan bahwa dengan menghasilkan rekaman audio dengan langkah pengambilan sampel tunggal, Comospeech mencapai kecepatan inferensi lebih dari 150 kali lebih cepat daripada real-time pada GPU NVIDIA A100 tunggal, yang sebanding dengan FastSpeech2, membuat sintesis ucapan berbasis pengambilan sampel difusi benar-benar praktis. Sementara itu, evaluasi obyektif dan subyektif pada sintesis suara teks-ke-ucapan dan menyanyi menunjukkan bahwa model guru yang diusulkan menghasilkan kualitas audio terbaik, dan comospeech berbasis pengambilan sampel satu langkah mencapai kecepatan inferensi terbaik dengan kualitas audio yang lebih baik atau sebanding dengan model model difusi multi-langkah konvensional lainnya.

Mempersiapkan

Bangun Kode monotonic_align (Cython):

 cd model/monotonic_align ; python setup.py build_ext --inplace ; cd ../..

Kesimpulan

Jalankan skrip inference.py dengan memberikan jalur ke file teks, jalur ke pos pemeriksaan, jumlah pengambilan sampel:

    python inference.py -f < text file > -c < checkpoint > -t < sampling steps >

Lihat folder yang out untuk audio yang dihasilkan. Perhatikan bahwa dalam file params. Guru = Benar adalah untuk model guru kita, salah adalah untuk comospeech kita. Selain itu, kami menggunakan vocoder yang sama di Grad-TTS. Anda dapat mengunduhnya dan memasukkannya ke folder Checkpts.

Pelatihan

Kami menggunakan dataset LJSPEECH dan mengikuti split train/test/val di fastspeech2, Anda dapat mengubah folder split di fs2_txt. Kemudian jalankan skrip train.py ,

    python train.py

Perhatikan bahwa dalam file params. Guru = Benar adalah untuk model guru kita, salah adalah untuk comospeech kita. Saat melatih Comospeech, direktori pos pemeriksaan guru harus disediakan.

Pos pemeriksaan yang dilatih di ljspeech dapat diunduh dari sini.