Nnaudio عبارة عن صندوق أدوات معالجة الصوت باستخدام شبكة Neural Neural Neural Pytorch كواجهة خلفية لها. من خلال القيام بذلك ، يمكن إنشاء طيف من الصوت من الصوت أثناء التدريب على الشبكة العصبية ويمكن تدريب نواة فورييه (مثل أو حبات CQT). لدى Kapre مفهومًا مشابهًا يستخدمون فيه أيضًا شبكة عصبية تلافيفية 1D لاستخراج الطيف على أساس keras.
أدوات معالجة الصوت GPU الأخرى هي Torchaudio و TF.Signal. لكنهم لا يستخدمون نهج الشبكة العصبية ، وبالتالي لا يمكن تدريب أساس فورييه. اعتبارًا من Pytorch 1.6.0 ، لا يزال Torchaudio صعبًا للغاية تحت بيئة Windows بسبب sox . Nnaudio هي أداة معالجة صوتية أكثر توافقًا عبر أنظمة التشغيل المختلفة لأنها تعتمد في الغالب على الشبكة العصبية التلافيفية Pytorch. اسم nnaudio يأتي من torch.nn
pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation
أو
pip install nnAudio==0.3.1
https://kinwaicheuk.github.io/nnaudio/index.html
| ميزة | nnaudio | Torch.Stft | كابري | Torchaudio | tf.signal | شعلة ستطف | Librosa |
|---|---|---|---|---|---|---|---|
| قابلة للتدريب | ✅ | ✅ | ✅ | ||||
| قابل للتمييز | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| التردد الخطي STFT | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| التردد اللوغاريتمي STFT | ✅ | ✅ | |||||
| عكس STFT | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| غريفين-ليم | ✅ | ✅ | ✅ | ✅ | |||
| ميل | ✅ | ✅ | ✅ | ✅ | ✅ | ||
| MFCC | ✅ | ✅ | ✅ | ✅ | |||
| CQT | ✅ | ✅ | |||||
| Vqt | ✅ | ✅ | |||||
| gammatone | ✅ | ||||||
| CFP 1 | ✅ | ||||||
| دعم GPU | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
✅: دعم كامل ☑: التطوير (متوفر فقط في إصدار DEV): لا تدعم
1 الجمع بين التمثيلات الطيفية والزمنية لتقدير الموسيقى متعددة المواقع
لعرض changelog الكامل ، يرجى الانتقال إلى changelog.md
الإصدار 0.3.1 (24 ديسمبر 2021):
الإصدار 0.3.0 (19 نوفمبر 2021):
nnAudio.Spectrogram بـ nnAudio.features في الإصدارات المستقبلية. حاليًا ، يمكن الوصول إلى أنواع الطيف المختلفة عبر كلتا الطريقتين. الورقة لـ Nnaudio يمكن أن AVALANT على الوصول إلى IEEE
KW Cheuk ، H. Anderson ، K. Agres and D. Herremans ، "Nnaudio: A On-Fly GPU Audio to Spectrogram Conversion Toolbox باستخدام شبكات عصبية تلافيفية 1D" ، في IEEE Access ، المجلد. 8 ، ص. 161981-162003 ، 2020 ، doi: 10.1109/Access.2020.3019084.
article {9174990 ، uptor = {kw {cheuk} و H. {Anderson} و K. {Agres} و D. {Herremans}} ، Journal = {ieee access} ، title = {nnaudio: an fly gpu audio to spection toolbox interbox endox} المجلد = {8} ، الرقم = {} ، الصفحات = {161981-162003} ، doi = {10.1109/access.2020.3019084}}
Nnaudio هي حزمة سريعة النمو. مع زيادة عدد طلبات الميزات ، نرحب بأي شخص على دراية بمعالجة الإشارات الرقمية والشبكة العصبية للمساهمة في Nnaudio. تتضمن القائمة الحالية للميزات المعلقة:
(نصائح سريعة لاختبار الوحدة: cd داخل مجلد التثبيت ، ثم اكتب pytest . تحتاج إلى ما لا يقل عن 1931 ذاكرة GPU MIB لاجتياز جميع اختبارات الوحدة)
بدلاً من ذلك ، يمكنك أيضًا المساهمة من خلال:
numpy> = 1.14.5
Scipy> = 1.2.0
Pytorch> = 1.6.0 (Griffin-Lim متاح فقط بعد 1.6.0)
بيثون> = 3.6
Librosa = 0.7.0 (يعتمد Nnaudio نظريًا على Librosa. لكننا بحاجة فقط إلى استخدام وظيفة واحدة mel من librosa.filters . لإنقاذ مشكلات المستخدمين من تثبيت Librosa لهذه الوظيفة الواحدة ، أقوم فقط بنسخ جزء من الوظائف المقابلة لـ mel في الكود الخاص بي.
كابري
شعلة ستطف