Dalam makalah kami baru-baru ini, kami mengusulkan WG-Wavenet, model generasi gelombang berkualitas tinggi, ringan, dan berkualitas tinggi. WG-WAVENET terdiri dari model berbasis aliran kompak dan post-filter. Kedua komponen tersebut dilatih bersama dengan memaksimalkan kemungkinan data pelatihan dan mengoptimalkan fungsi kerugian pada domain frekuensi. Saat kami merancang model berbasis aliran yang sangat terkompresi, model yang diusulkan membutuhkan sumber daya komputasi yang jauh lebih sedikit dibandingkan dengan model generasi gelombang lainnya selama pelatihan dan waktu inferensi; Meskipun model ini sangat terkompresi, post-filter mempertahankan kualitas bentuk gelombang yang dihasilkan. Implementasi Pytorch kami dapat dilatih menggunakan memori GPU kurang dari 8 GB dan menghasilkan sampel audio dengan kecepatan lebih dari 5000 kHz pada GPU NVIDIA 1080TI. Selain itu, bahkan jika sintesis pada CPU, kami menunjukkan bahwa metode yang diusulkan mampu menghasilkan gelombang wicara 44,1 kHz 1,2 kali lebih cepat daripada waktu nyata. Eksperimen juga menunjukkan bahwa kualitas audio yang dihasilkan sebanding dengan metode lain.
Kunjungi Demopage untuk sampel audio.
Unduh pidato LJ. Dalam contoh ini ada di data/
Untuk pelatihan, jalankan perintah berikut.
python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs > python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs > Bekerja dalam proses.
Kami akan menggabungkan vocoder ini dengan Tacotron2. Informasi lebih lanjut dan demo Colab akan dirilis di sini.