تنزيل nnAudio - تنزيل رمز المصدر nnAudio

nnAudio

بايثون

Code refactoring and updating

تنزيل

nnaudio

Nnaudio عبارة عن صندوق أدوات معالجة الصوت باستخدام شبكة Neural Neural Neural Pytorch كواجهة خلفية لها. من خلال القيام بذلك ، يمكن إنشاء طيف من الصوت من الصوت أثناء التدريب على الشبكة العصبية ويمكن تدريب نواة فورييه (مثل أو حبات CQT). لدى Kapre مفهومًا مشابهًا يستخدمون فيه أيضًا شبكة عصبية تلافيفية 1D لاستخراج الطيف على أساس keras.

أدوات معالجة الصوت GPU الأخرى هي Torchaudio و TF.Signal. لكنهم لا يستخدمون نهج الشبكة العصبية ، وبالتالي لا يمكن تدريب أساس فورييه. اعتبارًا من Pytorch 1.6.0 ، لا يزال Torchaudio صعبًا للغاية تحت بيئة Windows بسبب sox . Nnaudio هي أداة معالجة صوتية أكثر توافقًا عبر أنظمة التشغيل المختلفة لأنها تعتمد في الغالب على الشبكة العصبية التلافيفية Pytorch. اسم nnaudio يأتي من torch.nn

تثبيت

pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation

أو

pip install nnAudio==0.3.1

الوثائق

https://kinwaicheuk.github.io/nnaudio/index.html

مقارنة مع المكتبات الأخرى

ميزة	nnaudio	Torch.Stft	كابري	Torchaudio	tf.signal	شعلة ستطف	Librosa
قابلة للتدريب	✅		✅			✅
قابل للتمييز	✅	✅	✅	✅	✅	✅
التردد الخطي STFT	✅	✅	✅	✅	✅	✅	✅
التردد اللوغاريتمي STFT	✅		✅
عكس STFT	✅	✅	✅	✅	✅	✅	✅
غريفين-ليم	✅			✅	✅		✅
ميل	✅		✅	✅	✅		✅
MFCC	✅			✅	✅		✅
CQT	✅						✅
Vqt	✅						✅
gammatone	✅
CFP ¹	✅
دعم GPU	✅	✅	✅	✅	✅	✅

✅: دعم كامل ☑: التطوير (متوفر فقط في إصدار DEV): لا تدعم

¹ الجمع بين التمثيلات الطيفية والزمنية لتقدير الموسيقى متعددة المواقع

الأخبار و changelog

لعرض changelog الكامل ، يرجى الانتقال إلى changelog.md

الإصدار 0.3.1 (24 ديسمبر 2021):

تمت إضافة ميزة VQT #113

الإصدار 0.3.0 (19 نوفمبر 2021):

تغيير وحدة التسمية. سيتم استبدال nnAudio.Spectrogram بـ nnAudio.features في الإصدارات المستقبلية. حاليًا ، يمكن الوصول إلى أنواع الطيف المختلفة عبر كلتا الطريقتين.

كيف تستشهد بالنينوديو

الورقة لـ Nnaudio يمكن أن AVALANT على الوصول إلى IEEE

KW Cheuk ، H. Anderson ، K. Agres and D. Herremans ، "Nnaudio: A On-Fly GPU Audio to Spectrogram Conversion Toolbox باستخدام شبكات عصبية تلافيفية 1D" ، في IEEE Access ، المجلد. 8 ، ص. 161981-162003 ، 2020 ، doi: 10.1109/Access.2020.3019084.

bibtex

article {9174990 ، uptor = {kw {cheuk} و H. {Anderson} و K. {Agres} و D. {Herremans}} ، Journal = {ieee access} ، title = {nnaudio: an fly gpu audio to spection toolbox interbox endox} المجلد = {8} ، الرقم = {} ، الصفحات = {161981-162003} ، doi = {10.1109/access.2020.3019084}}

دعوة للمساهمات

Nnaudio هي حزمة سريعة النمو. مع زيادة عدد طلبات الميزات ، نرحب بأي شخص على دراية بمعالجة الإشارات الرقمية والشبكة العصبية للمساهمة في Nnaudio. تتضمن القائمة الحالية للميزات المعلقة:

تحويل Q الثابت القابل للانعكاس (CQT)

(نصائح سريعة لاختبار الوحدة: cd داخل مجلد التثبيت ، ثم اكتب pytest . تحتاج إلى ما لا يقل عن 1931 ذاكرة GPU MIB لاجتياز جميع اختبارات الوحدة)

بدلاً من ذلك ، يمكنك أيضًا المساهمة من خلال:

صنع رمز عرض أو تعليمي أفضل

التبعيات

numpy> = 1.14.5

Scipy> = 1.2.0

Pytorch> = 1.6.0 (Griffin-Lim متاح فقط بعد 1.6.0)

بيثون> = 3.6

Librosa = 0.7.0 (يعتمد Nnaudio نظريًا على Librosa. لكننا بحاجة فقط إلى استخدام وظيفة واحدة mel من librosa.filters . لإنقاذ مشكلات المستخدمين من تثبيت Librosa لهذه الوظيفة الواحدة ، أقوم فقط بنسخ جزء من الوظائف المقابلة لـ mel في الكود الخاص بي.