Menggunakan LVCNET untuk merancang generator Wavegan paralel dan strategi yang sama untuk melatihnya, kecepatan inferensi vocoder baru lebih dari 5x lebih cepat daripada vocoder asli tanpa degradasi dalam kualitas audio .
Pekerjaan kami saat ini [kertas] telah diterima oleh ICASSP2021, dan karya kami sebelumnya dijelaskan dalam Mellow.
Siapkan data, unduh dataset LJSpeech dari https://keithito.com/lj-sheech-dataset/, dan simpan di data/LJSpeech-1.1 . Lalu jalankan
python - m vocoder . preprocess - - data - dir . / data / LJSpeech - 1.1 - - config configs / lvcgan . v1 . yaml Mel-deptrum dihitung dan disimpan dalam folder temp/ .
Pelatihan LVCNET
python - m vocoder . train - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1Uji lvcnet
python - m vocoder . test - - config configs / lvcgan . v1 . yaml - - exp - dir exps / exp . lvcgan . v1 Hasil eksperimen, termasuk log pelatihan, pos pemeriksaan model dan audio yang disintesis, disimpan di folder exps/exp.lvcgan.v1/ .
Kesamaan, Anda juga dapat menggunakan configs/pwg.v1.yaml untuk melatih model Wavegan paralel.
# training
python - m vocoder . train - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1
# test
python - m vocoder . test - - config configs / pwg . v1 . yaml - - exp - dir exps / exp . pwg . v1 Gunakan Tensorboard untuk melihat proses pelatihan eksperimental:
tensorboard --logdir exps


Sampel audio disimpan dalam samples/ , di mana
samples/*_lvc.wav dihasilkan oleh lvcnet,samples/*_pwg.wav dihasilkan oleh paralel Wavegan,samples/*_real.wav adalah audio yang sebenarnya. LVCNET: Jaringan pemodelan yang bergantung pada kondisi yang efisien untuk generasi bentuk gelombang, https://arxiv.org/abs/2102.10815
Melglow: Jaringan Generatif Gelombang Efisien Berdasarkan Konvolusi Lokasi-Variabel, https://arxiv.org/abs/2012.01684
https://github.com/kan-bayashi/parallelwavegan
https://github.com/lmnt-com/diffwave