Unduh nnAudio - Unduh Kode Sumber nnAudio

nnAudio

ular piton

Code refactoring and updating

Unduh

nnaudio

Nnaudio adalah kotak alat pemrosesan audio menggunakan jaringan saraf konvolusional Pytorch sebagai backend. Dengan melakukan itu, spektrogram dapat dihasilkan dari audio on-the-fly selama pelatihan jaringan saraf dan kernel Fourier (misalnya kernel atau CQT) dapat dilatih. Kapre memiliki konsep serupa di mana mereka juga menggunakan jaringan saraf konvolusional 1D untuk mengekstrak spektrogram berdasarkan keras.

Alat pemrosesan audio GPU lainnya adalah Torchaudio dan TF.Signal. Tetapi mereka tidak menggunakan pendekatan jaringan saraf, dan karenanya basis Fourier tidak dapat dilatih. Pada Pytorch 1.6.0, Torchaudio masih sangat sulit untuk dipasang di bawah lingkungan Windows karena sox . Nnaudio adalah alat pemrosesan audio yang lebih kompatibel di berbagai sistem operasi karena sebagian besar bergantung pada jaringan saraf konvolusional Pytorch. Nama Nnaudio berasal dari torch.nn

Instalasi

pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation

atau

pip install nnAudio==0.3.1

Dokumentasi

https://kinwaicheuk.github.io/nnaudio/index.html

Perbandingan dengan perpustakaan lain

Fitur	nnaudio	Torch.stft	kapre	Torchaudio	tf.signal	obor-stft	librosa
Bisa dilatih	✅		✅			✅
Berbeda	✅	✅	✅	✅	✅	✅
STFT frekuensi linier	✅	✅	✅	✅	✅	✅	✅
STFT frekuensi logaritmik	✅		✅
STFT terbalik	✅	✅	✅	✅	✅	✅	✅
Griffin-Lim	✅			✅	✅		✅
Mel	✅		✅	✅	✅		✅
MFCC	✅			✅	✅		✅
Cqt	✅						✅
VQT	✅						✅
Gammatone	✅
CFP ¹	✅
Dukungan GPU	✅	✅	✅	✅	✅	✅

✅: Dukungan sepenuhnya ☑️: Mengembangkan (hanya tersedia dalam versi dev): tidak mendukung

¹ Menggabungkan representasi spektral dan temporal untuk estimasi multipitch musik polifonik

Berita & Changelog

Untuk melihat changelog lengkap, silakan kunjungi changelog.md

Versi 0.3.1 (24 Des 2021):

Menambahkan fitur VQT #113

Versi 0.3.0 (19 Nov 2021):

Penamaan modul yang diubah. nnAudio.Spectrogram akan digantikan oleh nnAudio.features di rilis mendatang. Saat ini, berbagai jenis spektrogram dapat diakses melalui kedua metode.

Cara mengutip nnaudio

Makalah untuk nnaudio tersedia pada akses IEEE

KW Cheuk, H. Anderson, K. Agres dan D. Herremans, "Nnaudio: An On-the-Fly Audio Audio ke Spectrogram Conversion Toolbox menggunakan 1D Convolutional Neural Networks," di IEEE Access, vol. 8, hlm. 161981-162003, 2020, doi: 10.1109/access.2020.3019084.

Bibtex

@ARTICLE{9174990, author={KW {Cheuk} and H. {Anderson} and K. {Agres} and D. {Herremans}}, journal={IEEE Access}, title={nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks}, tahun = {2020}, volume = {8}, angka = {}, halaman = {161981-162003}, doi = {10.1109/access.2020.3019084}}

Panggilan untuk kontribusi

Nnaudio adalah paket yang tumbuh cepat. Dengan meningkatnya jumlah permintaan fitur, kami menyambut siapa saja yang akrab dengan pemrosesan sinyal digital dan jaringan saraf untuk berkontribusi ke Nnaudio. Daftar fitur yang tertunda saat ini meliputi:

Invertible Constant Q Transform (CQT)

(Kiat cepat untuk uji unit: cd di dalam folder instalasi, lalu ketik pytest . Anda membutuhkan setidaknya 1931 memori GPU MIB untuk lulus semua tes unit)

Atau, Anda juga dapat berkontribusi oleh:

Membuat kode atau tutorial demonstrasi yang lebih baik

Dependensi

Numpy> = 1.14.5

SCIPY> = 1.2.0

Pytorch> = 1.6.0 (Griffin-Lim hanya tersedia setelah 1.6.0)

Python> = 3.6

librosa = 0.7.0 (secara teoritis nnaudio tergantung pada librosa. Tetapi kami hanya perlu menggunakan satu fungsi mel dari librosa.filters . Untuk menyimpan masalah pengguna dari menginstal librosa untuk fungsi tunggal ini, saya cukup menyalin fungsi librosa yang sesuai dengan mel dalam kode saya sehingga nnaudio berjalan tanpa perlu menginstal librosa)