Unduh WG WaveNet - Unduh Kode Sumber WG WaveNet

WG WaveNet

Kode Sumber AI

1.0.0

Unduh

WG-WAVENET: Sintesis Pidato Kesenian Tinggi waktu nyata tanpa GPU

Po-chun hsu, hung-yi lee

Dalam makalah kami baru-baru ini, kami mengusulkan WG-Wavenet, model generasi gelombang berkualitas tinggi, ringan, dan berkualitas tinggi. WG-WAVENET terdiri dari model berbasis aliran kompak dan post-filter. Kedua komponen tersebut dilatih bersama dengan memaksimalkan kemungkinan data pelatihan dan mengoptimalkan fungsi kerugian pada domain frekuensi. Saat kami merancang model berbasis aliran yang sangat terkompresi, model yang diusulkan membutuhkan sumber daya komputasi yang jauh lebih sedikit dibandingkan dengan model generasi gelombang lainnya selama pelatihan dan waktu inferensi; Meskipun model ini sangat terkompresi, post-filter mempertahankan kualitas bentuk gelombang yang dihasilkan. Implementasi Pytorch kami dapat dilatih menggunakan memori GPU kurang dari 8 GB dan menghasilkan sampel audio dengan kecepatan lebih dari 5000 kHz pada GPU NVIDIA 1080TI. Selain itu, bahkan jika sintesis pada CPU, kami menunjukkan bahwa metode yang diusulkan mampu menghasilkan gelombang wicara 44,1 kHz 1,2 kali lebih cepat daripada waktu nyata. Eksperimen juga menunjukkan bahwa kualitas audio yang dihasilkan sebanding dengan metode lain.

Kunjungi Demopage untuk sampel audio.

Todo

Rilis model pretrained.
Kombinasikan dengan Tacotron2.

Persyaratan

Python> = 3.5.2
obor> = 1.4.0
Numpy
SCIPY
acar
librosa
Tensorboardx

Preprocessing

Pelatihan

Unduh pidato LJ. Dalam contoh ini ada di data/
Untuk pelatihan, jalankan perintah berikut.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models >

Untuk pelatihan menggunakan model pretrained, jalankan perintah berikut.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --ckpt_pth= < pth/to/pretrained/model >

Untuk menggunakan Tensorboard (Opsional), jalankan perintah berikut.

python3 train.py --data_dir= < dir/to/dataset > --ckpt_dir= < dir/to/models > --log_dir= < dir/to/logs >

Kesimpulan

Untuk mensintesis file WAV, jalankan perintah berikut.

python3 inference.py --ckpt_pth= < pth/to/model > --src_pth= < pth/to/src/wavs > --res_pth= < pth/to/save/wavs >

Model pretrained

Bekerja dalam proses.

Tts

Kami akan menggabungkan vocoder ini dengan Tacotron2. Informasi lebih lanjut dan demo Colab akan dirilis di sini.

Referensi

Waveglow oleh Nvidia
Parallelwavegan oleh Kan-Bayashi

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-22
ukuran 13.71KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
wgcf

2024-11-02
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua