Unduh cnn_vocoder - Unduh Kode Sumber cnn

cnn_vocoder

Kode Sumber AI

1.0.0

Unduh

CNNVOCODER

Catatan: Saya tidak lagi mengerjakan proyek ini. Lihat #9.

Vocoder berbasis CNN.

Karya ini terinspirasi dari model M-CNN yang dijelaskan dalam inversi spektrogram cepat menggunakan jaringan saraf konvolusional multi-head. Para penulis menunjukkan bahwa bahkan jaringan upampling sederhana sudah cukup untuk sintesis bentuk gelombang dari spektrogram/mel-spectrogram.

Dalam repo ini, saya menggunakan fitur Spectrogram untuk model pelatihan karena berisi lebih banyak informasi daripada fitur Mel-Spectrogram. Namun, karena transformasi dari spektrogram ke Mel-spectrogram hanyalah proyeksi linier, jadi pada dasarnya, Anda dapat melatih spektrogram prediksi jaringan sederhana dari Mel-Spectrogram. Anda juga dapat mengubah parameter untuk dapat melatih vokoder dari fitur Mel-Spectrogram juga.

Contoh audio

Catatan Arsitektur

Bandingkan dengan M-CNN, jaringan yang saya usulkan memiliki beberapa perbedaan:

Saya menggunakan lapisan UPSAMPLING + CONV alih -alih Lapisan TransposedConV. Ini membantu mencegah artefak kotak -kotak.
Model ini menggunakan banyak blok residu sebelum/setelah modul upampling untuk membuat jaringan lebih besar/lebih dalam.
Saya hanya menggunakan kerugian L1 antara magnitudo STFT skala log dari prediksi dan bentuk gelombang target. Kehilangan evaluasi pada ruang log lebih baik daripada pada magnitudo STFT mentah karena lebih dekat dengan sensasi manusia tentang kenyaringan. Saya mencoba menghitung kehilangan pada fitur Spectrogram, tetapi itu tidak banyak membantu.

Pasang persyaratan

$ pip install -r requirements.txt

Melatih vocoder

1. Siapkan dataset

Saya menggunakan dataset LJSPEECH untuk percobaan saya. Jika Anda belum memilikinya, silakan unduh dataset dan letakkan di suatu tempat.

Setelah itu, Anda dapat menjalankan perintah untuk menghasilkan dataset untuk percobaan kami:

$ python preprocessing.py --samples_per_audio 20  
--out_dir ljspeech 
--data_dir path/to/ljspeech/dataset 
--n_workers 4

2. Latih Vocoder

$ python train.py --out_dir ${output_directory}

Untuk lebih banyak opsi pelatihan, silakan jalankan:

$ python train.py --help

Menghasilkan audio dari spektrogram

Menghasilkan spektrogram dari audio

$ python gen_spec.py -i sample.wav -o out.npz

Menghasilkan audio dari spektrogram

$ python synthesis.py --model_path path/to/checkpoint 
                      --spec_path out.npz 
                      --out_path out.wav

Model pretrained

Anda bisa mendapatkan model pra-terlatih saya di sini.

Ucapan Terima Kasih

Implementasi ini menggunakan kode dari NVIDIA, Ryuichi Yamamoto, Keith Ito seperti yang dijelaskan dalam kode saya.

Lisensi

Mit

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-08-21
ukuran 2.5MB
Berasal dari Github

Aplikasi Terkait

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
Mesin analisis data Lihua versi gratis 3.0_search_navigation_collection_public opinion_ranking_api

2022-06-28

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua