Nnaudio adalah kotak alat pemrosesan audio menggunakan jaringan saraf konvolusional Pytorch sebagai backend. Dengan melakukan itu, spektrogram dapat dihasilkan dari audio on-the-fly selama pelatihan jaringan saraf dan kernel Fourier (misalnya kernel atau CQT) dapat dilatih. Kapre memiliki konsep serupa di mana mereka juga menggunakan jaringan saraf konvolusional 1D untuk mengekstrak spektrogram berdasarkan keras.
Alat pemrosesan audio GPU lainnya adalah Torchaudio dan TF.Signal. Tetapi mereka tidak menggunakan pendekatan jaringan saraf, dan karenanya basis Fourier tidak dapat dilatih. Pada Pytorch 1.6.0, Torchaudio masih sangat sulit untuk dipasang di bawah lingkungan Windows karena sox . Nnaudio adalah alat pemrosesan audio yang lebih kompatibel di berbagai sistem operasi karena sebagian besar bergantung pada jaringan saraf konvolusional Pytorch. Nama Nnaudio berasal dari torch.nn
pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation
atau
pip install nnAudio==0.3.1
https://kinwaicheuk.github.io/nnaudio/index.html
| Fitur | nnaudio | Torch.stft | kapre | Torchaudio | tf.signal | obor-stft | librosa |
|---|---|---|---|---|---|---|---|
| Bisa dilatih | ✅ | ✅ | ✅ | ||||
| Berbeda | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| STFT frekuensi linier | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| STFT frekuensi logaritmik | ✅ | ✅ | |||||
| STFT terbalik | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Griffin-Lim | ✅ | ✅ | ✅ | ✅ | |||
| Mel | ✅ | ✅ | ✅ | ✅ | ✅ | ||
| MFCC | ✅ | ✅ | ✅ | ✅ | |||
| Cqt | ✅ | ✅ | |||||
| VQT | ✅ | ✅ | |||||
| Gammatone | ✅ | ||||||
| CFP 1 | ✅ | ||||||
| Dukungan GPU | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
✅: Dukungan sepenuhnya ☑️: Mengembangkan (hanya tersedia dalam versi dev): tidak mendukung
1 Menggabungkan representasi spektral dan temporal untuk estimasi multipitch musik polifonik
Untuk melihat changelog lengkap, silakan kunjungi changelog.md
Versi 0.3.1 (24 Des 2021):
Versi 0.3.0 (19 Nov 2021):
nnAudio.Spectrogram akan digantikan oleh nnAudio.features di rilis mendatang. Saat ini, berbagai jenis spektrogram dapat diakses melalui kedua metode. Makalah untuk nnaudio tersedia pada akses IEEE
KW Cheuk, H. Anderson, K. Agres dan D. Herremans, "Nnaudio: An On-the-Fly Audio Audio ke Spectrogram Conversion Toolbox menggunakan 1D Convolutional Neural Networks," di IEEE Access, vol. 8, hlm. 161981-162003, 2020, doi: 10.1109/access.2020.3019084.
@ARTICLE{9174990, author={KW {Cheuk} and H. {Anderson} and K. {Agres} and D. {Herremans}}, journal={IEEE Access}, title={nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks}, tahun = {2020}, volume = {8}, angka = {}, halaman = {161981-162003}, doi = {10.1109/access.2020.3019084}}
Nnaudio adalah paket yang tumbuh cepat. Dengan meningkatnya jumlah permintaan fitur, kami menyambut siapa saja yang akrab dengan pemrosesan sinyal digital dan jaringan saraf untuk berkontribusi ke Nnaudio. Daftar fitur yang tertunda saat ini meliputi:
(Kiat cepat untuk uji unit: cd di dalam folder instalasi, lalu ketik pytest . Anda membutuhkan setidaknya 1931 memori GPU MIB untuk lulus semua tes unit)
Atau, Anda juga dapat berkontribusi oleh:
Numpy> = 1.14.5
SCIPY> = 1.2.0
Pytorch> = 1.6.0 (Griffin-Lim hanya tersedia setelah 1.6.0)
Python> = 3.6
librosa = 0.7.0 (secara teoritis nnaudio tergantung pada librosa. Tetapi kami hanya perlu menggunakan satu fungsi mel dari librosa.filters . Untuk menyimpan masalah pengguna dari menginstal librosa untuk fungsi tunggal ini, saya cukup menyalin fungsi librosa yang sesuai dengan mel dalam kode saya sehingga nnaudio berjalan tanpa perlu menginstal librosa)
Kapre
obor-stft