Implementasi resmi Learn2Sing 2.0. Untuk semua detail, lihat makalah kami yang diterima oleh Interspeech 2022 melalui tautan ini.
Penulis : Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao BI.
Halaman Demo : Tautan.
Membangun korpus bernyanyi berkualitas tinggi untuk orang yang tidak pandai bernyanyi adalah non-sepele, sehingga membuatnya sulit untuk menciptakan synthesizer suara bernyanyi untuk orang ini. Learn2Sing didedikasikan untuk mensintesis suara bernyanyi pembicara tanpa data bernyanyi dengan belajar dari data yang direkam oleh orang lain, yaitu, guru bernyanyi. Terinspirasi oleh fakta bahwa pitch adalah faktor gaya utama untuk membedakan nyanyian dari berbicara, yang diusulkan belajar2sing 2.0 pertama menghasilkan fitur akustik awal dengan nilai pitch rata -rata di tingkat telepon, yang memungkinkan pelatihan proses ini untuk berbagai gaya, yaitu, berbicara atau bernyanyi, berbagi kondisi yang sama kecuali untuk informasi speaker. Kemudian, dikondisikan pada gaya spesifik, dekoder difusi, yang dipercepat oleh algoritma pengambilan sampel cepat selama tahap inferensi, diadopsi secara bertahap mengembalikan fitur akustik akhir. Selama pelatihan, untuk menghindari kebingungan informasi dari embedding pembicara dan penyematan gaya, informasi timbal balik digunakan untuk menahan pembelajaran penyematan pembicara dan penyematan gaya. Eksperimen menunjukkan bahwa pendekatan yang diusulkan mampu mensintesis suara bernyanyi berkualitas tinggi untuk pembicara target tanpa menyanyikan data dengan 10 langkah decoding.
Ganti phoneset dan pitchset dalam teks/simbol.py dengan set Anda sendiri
Berikan jalur ke data di config.json, folder testData berisi file contoh untuk menunjukkan format
Pelatihan
bash run.sh
Kesimpulan
bash syn.sh outputs target_speaker_id 0 decoding_steps cuda True