تنزيل torch audiomentations - تنزيل torch audiomentations المصدر

torch audiomentations

بايثون

v0.11.1

تنزيل

زيادة بيانات الصوت في Pytorch. مستوحاة من السمع.

يدعم وحدة المعالجة المركزية و GPU (CUDA) - السرعة أولوية
يدعم دفعات الصوت متعدد القنوات (أو أحادية)
تحويلات تمديد nn.Module ، بحيث يمكن دمجها كجزء من نموذج شبكة Pytorch العصبية
معظم التحويلات قابلة للتمييز
ثلاثة أوضاع: per_batch ، per_example و per_channel
التوافق عبر المنصات
ترخيص معهد ماساتشوستس للتكنولوجيا
تهدف إلى تغطية اختبار عالية

يثبت

pip install torch-audiomentations

مثال الاستخدام

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

القضايا المعروفة

لا تزال معالجة البيانات المستهدفة في حالة تجريبية (#3). الحل البديل: استخدم freeze_parameters و unfreeze_parameters في الوقت الحالي إذا كانت البيانات المستهدفة صوتية بنفس شكل الإدخال.
يمكن أن يؤدي استخدام الإفراط في تورش في سياق المعالجة المتعددة إلى تسرب الذاكرة (#132). الحل البديل: إذا كان استخدام أفعال الشعلة في سياق المعالجة المتعددة ، فمن المحتمل أن يعمل بشكل أفضل لتشغيل التحويلات على وحدة المعالجة المركزية.
لا يتم دعم Multi-GPU / DDP رسميًا (#136). لا يحتوي المؤلف على إعداد متعدد GPU لاختبار وإصلاح هذا. اتصل بالاتصال إذا كنت ترغب في التبرع ببعض الأجهزة لهذا الغرض. الحل البديل: قم بتشغيل التحويلات على وحدة معالجة الرسومات الواحدة بدلاً من ذلك.
لا يدعم PitchShift نوبات الملعب الصغيرة ، خاصة بالنسبة لمعدلات العينة المنخفضة (#151). الحل البديل: إذا كنت بحاجة إلى تحولات صغيرة في الملعب يتم تطبيقها على معدلات العينة المنخفضة ، فاستخدم الانزياح السمعي في المسموعات أو التحول في الشعلة مباشرة دون وظيفة لحساب أهداف التحول الفعالة.

يساهم

ترحيب المساهمين! انضم إلى الركود في الكويكب لبدء المناقشة حول torch-audiomentations معنا.

الدافع: السرعة

لا نريد أن يكون زيادة البيانات عنق الزجاجة في سرعة التدريب النموذجية. فيما يلي مقارنة بين الوقت الذي يستغرقه تشغيل الالتفاف 1D:

حل أوقات التنفيذ

ملاحظة: ليس كل التحويلات لديها تسريع هذا مثير للإعجاب مقارنة بوحدة المعالجة المركزية. بشكل عام ، فإن تشغيل بيانات الصوت على GPU ليس دائمًا الخيار الأفضل. لمزيد من المعلومات ، راجع هذا المقال: https://iver56.github.io/audiomentations/guides/cpu_vs_gpu/

الحالة الحالية

تُعتبر Torch-AudioMentations في مرحلة التنمية المبكرة ، وبالتالي فإن واجهات برمجة التطبيقات (APIs) عرضة للتغيير.

يتحول الموجة

كل تحويل لديه mode ، p ، و p_mode - المعلمات التي تقرر كيفية تنفيذ زيادة.

يقرر mode كيفية تجميع العشوائية للزيادة وتطبيقها.
p يقرر احتمال تشغيل/إيقاف تطبيق التعزيز.
p_mode يقرر كيفية تطبيق ON/OFF من التعزيز.

يوضح هذا التصور كيف تقوم مجموعات مختلفة من mode و p_mode بإجراء زيادة.

شرح الوضع ، p و p_mode

AddBackgroundNoise

أضاف في v0.5.0

أضف ضوضاء الخلفية إلى صوت الإدخال.

AddColoredNoise

أضيفت في v0.7.0

إضافة ضوضاء ملونة إلى صوت الإدخال.

تطبيق recomproserSponse

أضاف في v0.5.0

حل الصوت المعطى مع استجابات الدافع.

BandPassFilter

أضاف في v0.9.0

قم بتطبيق تصفية تمرير النطاق على صوت الإدخال.

Bandstopfilter

تمت إضافة في v0.10.0

قم بتطبيق تصفية توقف النطاق على صوت الإدخال. المعروف أيضا باسم مرشح الشق.

يكسب

أضيفت في v0.1.0

اضرب الصوت بواسطة عامل السعة العشوائية لتقليل أو زيادة مستوى الصوت. يمكن أن تساعد هذه التقنية نموذجًا على أن يصبح ثابتًا إلى حد ما لتحقيق المكاسب الإجمالية لصوت المدخلات.

تحذير: يمكن لهذا التحول إرجاع عينات خارج نطاق [-1 ، 1] ، مما قد يؤدي إلى القطع أو التفاف ، اعتمادًا على ما تفعله مع الصوت في مرحلة لاحقة. انظر أيضًا https://en.wikipedia.org/wiki/clipping_(audio)#digital_clipping

HighpassFilter

أضيفت في v0.8.0

قم بتطبيق تصفية تمرير عالي على صوت الإدخال.

هوية

تمت إضافة في v0.11.0

هذا التحويل يعيد الإدخال دون تغيير. يمكن استخدامه لتبسيط الكود في الحالات التي يجب فيها تعطيل زيادة البيانات.

lowpassfilter

أضيفت في v0.8.0

قم بتطبيق تصفية تمرير منخفض على صوت الإدخال.

الذروة

أضاف في v0.2.0

قم بتطبيق كمية ثابتة من الربح ، بحيث يصبح أعلى مستوى إشارة موجود في كل مقتطف صوتي في الدُفعة 0 DBFs ، أي أعلى مستوى مسموح به إذا كان يجب أن تكون جميع العينات بين -1 و 1.

يحتوي هذا التحويل على وضع بديل (application_to = "omsy_too_loud_sounds") حيث ينطبق فقط على مقتطفات الصوت التي لها قيم متطرفة خارج نطاق [-1 ، 1]. يعد هذا مفيدًا لتجنب القطع الرقمي في الصوت بصوت عالٍ للغاية ، مع ترك صوت آخر دون مساس.

الذروة

أضاف في v0.9.0

يبدو أن تحريك الملعب لأعلى أو لأسفل دون تغيير الإيقاع.

الاستقلال

أضيفت في v0.1.0

اقلب عينات الصوت رأسًا على عقب ، مما يعكس قطبية. بمعنى آخر ، اضرب الشكل الموجي بمقدار -1 ، لذلك تصبح القيم السلبية إيجابية ، والعكس صحيح. سوف تبدو النتيجة كما هي مقارنة بالأصل عند تشغيلها مرة أخرى في عزلة. ومع ذلك ، عند خلطها مع مصادر صوتية أخرى ، قد تكون النتيجة مختلفة. يتم استخدام تقنية انعكاس الموجة هذه في بعض الأحيان لإلغاء الصوت أو الحصول على الفرق بين شكلين موجيين. ومع ذلك ، في سياق زيادة بيانات الصوت ، يمكن أن يكون هذا التحول مفيدًا عند تدريب نماذج التعلم الآلي على دراية المرحلة.

يحول

أضاف في v0.5.0

قم بتحويل الصوت إلى الأمام أو للخلف ، مع أو بدون التمرير

shufflechannels

تمت إضافة في v0.6.0

بالنظر إلى إدخال الصوت متعدد القنوات (EG Stereo) ، خلط القنوات ، على سبيل المثال ، يمكن أن يصبح اليسار يمينًا والعكس صحيح. يمكن أن يساعد هذا التحول في مكافحة التحيز الموضعي في نماذج التعلم الآلي التي تقوم بإدخال أشكال موجية متعددة القنوات.

إذا كان صوت الإدخال أحاديًا ، فإن هذا التحول لا يفعل شيئًا سوى انبعاث تحذير.

الوقت

تمت إضافة في v0.10.0

عكسي (انقلاب) الصوت على طول المحور الزمني مماثل للوجه العشوائي لصورة في المجال البصري. هذا يمكن أن يكون ذا صلة في سياق تصنيف الصوت. تم تطبيقه بنجاح في الورق Audioclip: تمديد المقطع إلى الصورة والنصوص والصوت

Changelog

لم يفرج عنه

وأضاف

أضف تحويلات جديدة: Mix ، Padding ، RandomCrop و SpliceOut

[v0.11.1]-2024-02-07

تغيرت

أضف دعمًا لتردد القطع الثابت في LowPassFilter و HighPassFilter
أضف دعمًا لـ min_f_decay == max_f_decay في AddColoredNoise
تبعية عثرة Torchaudio من> = 0.7.0 إلى> = 0.9.0

مُثَبَّت

إصلاح تلميحات نوع غير دقيق في Shift
قم بإزالة set_backend لتجنب UserWarning من Torchaudio

[v0.11.0]-2022-06-29

وأضاف

أضف تحويل جديد: Identity
أضف API لمعالجة الأهداف إلى جانب المدخلات. بعض التحويلات تدعم هذه الميزة بالفعل.

تغيرت

أضف نوع إخراج ObjectDict كبديل لـ torch.Tensor . هذا البديل يتم اختياره في الوقت الحالي (من أجل التوافق مع الإصدارات السابقة) ، ولكن لاحظ أن نوع الإخراج القديم ( torch.Tensor ) قد تم إهماله وسيتم إزالته في إصدار مستقبلي.
السماح بتحديد مسار ملف أو مسار مجلد أو قائمة بالملفات أو قائمة المجلدات لإضافة AddBackgroundNoise ApplyImpulseResponse
تتطلب إصدارًا جديدًا من torch-pitch-shift لضمان دعم Torchaudio 0.11 في PitchShift

مُثَبَّت

إصلاح خطأ حيث لم يعمل BandPassFilter على GPU

[v0.10.1]-2022-03-24

وأضاف

أضف دعمًا لـ MIN SNR == MAX SNR في AddBackgroundNoise
أضف دعمًا لـ Librosa 0.9.0

مُثَبَّت

إصلاح خلل حيث تم إعادة تشكيل قصاصات الصوت المحملة في بعض الأحيان إلى طول غير متوافق في AddBackgroundNoise

[v0.10.0]-2022-02-11

وأضاف

تنفيذ OneOf SomeOf لتطبيق واحد أو أكثر من مجموعة من التحويلات
تنفيذ تحويلات جديدة: BandStopFilter و TimeInversion

تغيرت

ضع ir_paths في transform_parameters في ApplyImpulseResponse ، لذلك من الممكن فحص الاستجابات التي تم استخدامها. هذا يعطي أيضا freeze_parameters() السلوك المتوقع.

مُثَبَّت

إصلاح الخلل حيث كان عرض النطاق الترددي الفعلي ضعف حجمه كما هو متوقع في BandPassFilter . تم تحديث القيم الافتراضية وفقًا لذلك. إذا كنت تحدد سابقًا min_bandwidth_fraction و/أو max_bandwidth_fraction ، فأنت الآن بحاجة إلى مضاعفة هذه الأرقام للحصول على نفس السلوك كما كان من قبل.

[V0.9.1]-2021-12-20

وأضاف

مارك بيثون رسميًا> = 3.9 كما هو مدعوم

[V0.9.0]-2021-10-11

وأضاف

إضافة المعلمة compensate_for_propagation_delay في ApplyImpulseResponse
تنفيذ BandPassFilter
تنفيذ PitchShift

تمت إزالته

تمت إزالة دعم Torchaudio <= 0.6

[V0.8.0]-2021-06-15

وأضاف

تنفيذ HighPassFilter و LowPassFilter

تم إهماله

يتم إهمال دعم Torchaudio <= 0.6 وسيتم إزالته في المستقبل

تمت إزالته

تمت إزالة دعم Pytorch <= 1.6

[V0.7.0]-2021-04-16

وأضاف

تنفيذ AddColoredNoise

تم إهماله

يتم إهمال دعم Pytorch <= 1.6 وسيتم إزالته في المستقبل

[v0.6.0]-2021-02-22

وأضاف

تنفيذ ShuffleChannels

[V0.5.1]-2020-12-18

مُثَبَّت

إصلاح الخلل حيث لا يعمل AddBackgroundNoise على CUDA
إصلاح الخلل حيث لم يتم العثور على ملفات/مجلدات صوتية متوفرة عند البحث عن ملفات صوتية
استخدم torch.fft.rfft بدلاً من torch.rfft (تم إهماله في Pytorch 1.7) عندما يكون ذلك ممكنًا. كمكافأة ، فإن التغيير يحسن الأداء أيضًا في ApplyImpulseResponse .

[V0.5.0]-2020-12-08

وأضاف

إطلاق AddBackgroundNoise وتطبيق ApplyImpulseResponse
تنفيذ Shift

تغيرت

اجعل sample_rate اختياريًا. السماح بتحديد sample_rate في __init__ بدلاً من forward . هذا يعني أنه يمكن استخدام تحويلات Torchaudio في Compose الآن.

تمت إزالته

قم بإزالة الدعم لترنز الصوت أحادي الأبعاد وثنائي الأبعاد. يتم الآن دعم الموترات الصوتية ثلاثية الأبعاد فقط الآن.

مُثَبَّت

إصلاح خلل حيث لا يمكن للمرء استخدام طريقة parameters من الفئة الفرعية nn.Module
إصلاح الخلل حيث لم يتم العثور على الملفات التي تحتوي على امتداد اسم ملف

[V0.4.0]-2020-11-10

وأضاف

تنفيذ Compose لتطبيق تحويلات متعددة
تنفيذ وظائف الأداة المساعدة from_dict و from_yaml لتحميل تكوينات زيادة البيانات من DICT أو JSON أو YAML
تدعم رسميا التفوق في معظم التحويلات