Unduh torch audiomentations - Unduh Kode Sumber torch audiomentations

torch audiomentations

ular piton

v0.11.1

Unduh

Augmentasi data audio di Pytorch. Terinspirasi oleh audiomentation.

Mendukung CPU dan GPU (CUDA) - Kecepatan adalah prioritas
Mendukung batch audio multichannel (atau mono)
Transformasi memperpanjang nn.Module , sehingga dapat diintegrasikan sebagai bagian dari model jaringan saraf pytorch
Kebanyakan transformasi dapat dibedakan
Tiga Mode: per_batch , per_example dan per_channel
Kompatibilitas lintas platform
Lisensi MIT permisif
Mengincar cakupan tes tinggi

Pengaturan

pip install torch-audiomentations

Contoh Penggunaan

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

Masalah yang diketahui

Pemrosesan data target masih dalam keadaan eksperimental (#3). Penanganan masalah: Gunakan freeze_parameters dan unfreeze_parameters untuk saat ini jika data target audio dengan bentuk yang sama dengan input.
Menggunakan obor-audiomentation dalam konteks multiprosessing dapat menyebabkan kebocoran memori (#132). Penanganan masalah: Jika menggunakan audiomentor obor dalam konteks multiproses, itu mungkin akan bekerja lebih baik untuk menjalankan transformasi pada CPU.
Multi-GPU / DDP tidak secara resmi didukung (#136). Penulis tidak memiliki pengaturan multi-GPU untuk menguji & memperbaikinya. Hubungi jika Anda ingin menyumbangkan beberapa perangkat keras untuk ini. Solusi: Jalankan transformasi pada GPU tunggal sebagai gantinya.
PitchShift tidak mendukung pergeseran pitch kecil, terutama untuk laju sampel rendah (#151). Penanganan masalah: Jika Anda membutuhkan pergeseran pitch kecil yang diterapkan pada laju sampel rendah, gunakan pitchshift di audiomentation atau obor-pitch-shift langsung tanpa fungsi untuk menghitung target pitch-shift yang efisien.

Menyumbang

Kontributor selamat datang! Bergabunglah dengan Slack Asteroid untuk mulai membahas tentang torch-audiomentations dengan kami.

Motivasi: Kecepatan

Kami tidak ingin augmentasi data menjadi hambatan dalam kecepatan pelatihan model. Berikut adalah perbandingan waktu yang diperlukan untuk menjalankan konvolusi 1D:

Convolve Times Eksekusi

Catatan: Tidak semua transformasi memiliki kecepatan yang mengesankan ini dibandingkan dengan CPU. Secara umum, menjalankan augmentasi data audio pada GPU tidak selalu merupakan pilihan terbaik. Untuk info lebih lanjut, lihat artikel ini: https://iver56.github.io/audiomentations/guides/cpu_vs_gpu/

Keadaan saat ini

Obor-audiomentasi berada dalam tahap pengembangan awal, sehingga API dapat berubah.

Transformasi bentuk gelombang

Setiap transformasi memiliki mode , p , dan p_mode - parameter yang memutuskan bagaimana augmentasi dilakukan.

mode memutuskan bagaimana pengacakan augmentasi dikelompokkan dan diterapkan.
p memutuskan probabilitas hidup/mati untuk menerapkan augmentasi.
p_mode memutuskan bagaimana on/off augmentasi diterapkan.

Visualisasi ini menunjukkan bagaimana berbagai kombinasi mode dan p_mode akan melakukan augmentasi.

Penjelasan Mode, P dan P_Mode

Addbackgroundnoise

Ditambahkan dalam v0.5.0

Tambahkan latar belakang noise ke audio input.

AddColoredNoise

Ditambahkan dalam v0.7.0

Tambahkan noise berwarna ke audio input.

Applyimpulseresponse

Ditambahkan dalam v0.5.0

Convolve audio yang diberikan dengan tanggapan impuls.

Bandpassfilter

Ditambahkan dalam v0.9.0

Terapkan penyaringan band-pass ke audio input.

Bandstopfilter

Ditambahkan dalam v0.10.0

Terapkan penyaringan band-stop ke audio input. Juga dikenal sebagai Notch Filter.

Memperoleh

Ditambahkan dalam V0.1.0

Lipat gandakan audio dengan faktor amplitudo acak untuk mengurangi atau meningkatkan volume. Teknik ini dapat membantu model menjadi agak invarian dengan gain keseluruhan dari audio input.

Peringatan: Transformasi ini dapat mengembalikan sampel di luar kisaran [-1, 1], yang dapat menyebabkan kliping atau membungkus distorsi, tergantung pada apa yang Anda lakukan dengan audio pada tahap selanjutnya. Lihat juga https://en.wikipedia.org/wiki/clipping_(Audio)#digital_clipping

Highpassfilter

Ditambahkan dalam V0.8.0

Terapkan penyaringan high-pass ke audio input.

Identitas

Ditambahkan dalam V0.11.0

Transformasi ini mengembalikan input yang tidak berubah. Ini dapat digunakan untuk menyederhanakan kode dalam kasus di mana augmentasi data harus dinonaktifkan.

Lowpassfilter

Ditambahkan dalam V0.8.0

Terapkan penyaringan low-pass ke audio input.

Peaknormalisasi

Ditambahkan dalam V0.2.0

Oleskan jumlah gain yang konstan, sehingga level sinyal tertinggi yang ada di setiap cuplikan audio dalam batch menjadi 0 dBfs, yaitu level paling keras yang diizinkan jika semua sampel harus antara -1 dan 1.

Transformasi ini memiliki mode alternatif (apply_to = "hanya_too_loud_sounds") di mana hanya berlaku untuk cuplikan audio yang memiliki nilai ekstrem di luar kisaran [-1, 1]. Ini berguna untuk menghindari kliping digital dalam audio yang terlalu keras, sambil meninggalkan audio lain yang tidak tersentuh.

Pitchshift

Ditambahkan dalam v0.9.0

Pitch-shift terdengar naik atau turun tanpa mengubah tempo.

PolarityInversion

Ditambahkan dalam V0.1.0

Balikkan sampel audio terbalik, membalikkan polaritas mereka. Dengan kata lain, kalikan bentuk gelombang dengan -1, sehingga nilai -nilai negatif menjadi positif, dan sebaliknya. Hasilnya akan terdengar sama dibandingkan dengan aslinya saat diputar kembali secara terpisah. Namun, ketika dicampur dengan sumber audio lainnya, hasilnya mungkin berbeda. Teknik inversi bentuk gelombang ini kadang -kadang digunakan untuk pembatalan audio atau mendapatkan perbedaan antara dua bentuk gelombang. Namun, dalam konteks augmentasi data audio, transformasi ini dapat bermanfaat saat pelatihan model pembelajaran mesin yang sadar fase.

Menggeser

Ditambahkan dalam v0.5.0

Geser audio ke depan atau ke belakang, dengan atau tanpa rollover

Shufflechannels

Ditambahkan dalam v0.6.0

Mengingat MultiChannel Audio Input (misalnya stereo), kocok saluran, misalnya sehingga kiri bisa menjadi benar dan sebaliknya. Transformasi ini dapat membantu memerangi bias posisi dalam model pembelajaran mesin yang memasukkan bentuk gelombang multichannel.

Jika audio input adalah mono, transformasi ini tidak melakukan apa pun kecuali memancarkan peringatan.

TimeInversion

Ditambahkan dalam v0.10.0

Membalikkan (membalik) audio sepanjang sumbu waktu mirip dengan flip acak gambar dalam domain visual. Ini bisa relevan dalam konteks klasifikasi audio. Itu berhasil diterapkan di kertas audioclip: memperluas klip ke gambar, teks, dan audio

Changelog

Belum dirilis

Ditambahkan

Tambahkan Transformasi Baru: Mix , Padding , RandomCrop dan SpliceOut

[v0.11.1]-2024-02-07

Berubah

Tambahkan dukungan untuk frekuensi cutoff konstan di LowPassFilter dan HighPassFilter
Tambahkan dukungan untuk min_f_decay == max_f_decay di AddColoredNoise
Dependensi Bump Torchaudio dari> = 0.7.0 hingga> = 0.9.0

Tetap

Perbaiki petunjuk tipe yang tidak akurat secara Shift
Hapus set_backend untuk menghindari UserWarning dari Torchaudio

[v0.11.0]-2022-06-29

Ditambahkan

Tambahkan Transformasi Baru: Identity
Tambahkan API untuk memproses target di samping input. Beberapa transformasi secara eksperimental mendukung fitur ini.

Berubah

Tambahkan tipe output ObjectDict sebagai alternatif untuk torch.Tensor . Alternatif ini adalah opt-in untuk saat ini (untuk kompatibilitas ke belakang), tetapi perhatikan bahwa tipe output lama ( torch.Tensor ) sudah usang dan dukungan untuk itu akan dihapus dalam versi mendatang.
Izinkan menentukan jalur file, jalur folder, daftar file atau daftar folder untuk AddBackgroundNoise dan ApplyImpulseResponse
Membutuhkan versi yang lebih baru dari torch-pitch-shift untuk memastikan dukungan untuk Torchaudio 0,11 di PitchShift

Tetap

Perbaiki bug di mana BandPassFilter tidak bekerja pada GPU

[v0.10.1]-2022-03-24

Ditambahkan

Tambahkan dukungan untuk min snr == max snr di AddBackgroundNoise
Tambahkan dukungan untuk librosa 0.9.0

Tetap

Perbaiki bug di mana cuplikan audio yang dimuat kadang -kadang resampled ke panjang yang tidak kompatibel di AddBackgroundNoise

[v0.10.0]-2022-02-11

Ditambahkan

Menerapkan OneOf dan SomeOf untuk menerapkan satu atau lebih dari set transformasi yang diberikan
Menerapkan Transformasi Baru: BandStopFilter dan TimeInversion

Berubah

Masukkan ir_paths di transform_parameters di ApplyImpulseResponse sehingga dimungkinkan untuk memeriksa respons impuls apa yang digunakan. Ini juga memberi freeze_parameters() perilaku yang diharapkan.

Tetap

Perbaiki bug di mana bandwidth yang sebenarnya dua kali lebih besar dari yang diharapkan di BandPassFilter . Nilai default telah diperbarui sesuai. Jika Anda sebelumnya menentukan min_bandwidth_fraction dan/atau max_bandwidth_fraction , Anda sekarang perlu menggandakan angka -angka itu untuk mendapatkan perilaku yang sama seperti sebelumnya.

[v0.9.1]-2021-12-20

Ditambahkan

Secara resmi tandai python> = 3.9 seperti yang didukung

[v0.9.0]-2021-10-11

Ditambahkan

Tambahkan parameter compensate_for_propagation_delay di ApplyImpulseResponse
Menerapkan BandPassFilter
Menerapkan PitchShift

DIHAPUS

Dukungan untuk Torchaudio <= 0,6 telah dihapus

[v0.8.0]-2021-06-15

Ditambahkan

Menerapkan HighPassFilter dan LowPassFilter

Tercerahkan

Dukungan untuk Torchaudio <= 0,6 sudah usang dan akan dihapus di masa depan

DIHAPUS

Dukungan untuk Pytorch <= 1.6 telah dihapus

[v0.7.0]-2021-04-16

Ditambahkan

Implementasikan AddColoredNoise

Tercerahkan

Dukungan untuk pytorch <= 1.6 sudah usang dan akan dihapus di masa depan

[v0.6.0]-2021-02-22

Ditambahkan

Menerapkan ShuffleChannels

[v0.5.1]-2020-12-18

Tetap

Perbaiki bug di mana AddBackgroundNoise tidak bekerja di cuda
Perbaiki bug di mana file audio/folder tidak ditemukan saat mencari file audio
Gunakan torch.fft.rfft alih -alih torch.rfft (sudah usang dalam Pytorch 1.7) bila memungkinkan. Sebagai bonus, perubahan juga meningkatkan kinerja di ApplyImpulseResponse .

[v0.5.0]-2020-12-08

Ditambahkan

Lepaskan AddBackgroundNoise dan ApplyImpulseResponse
Menerapkan Shift

Berubah

Buat sample_rate opsional. Izinkan menentukan sample_rate di __init__ bukan forward . Ini berarti transformasi Torchaudio dapat digunakan dalam Compose sekarang.

DIHAPUS

Hapus dukungan untuk tensor audio 1 dimensi dan 2 dimensi. Hanya tensor audio 3 dimensi yang didukung sekarang.

Tetap

Perbaiki bug di mana seseorang tidak dapat menggunakan metode parameters dari subkelas nn.Module
Perbaiki bug di mana file dengan ekstensi nama file huruf besar tidak ditemukan

[v0.4.0]-2020-11-10

Ditambahkan

Menerapkan Compose untuk Menerapkan beberapa Transformasi
Menerapkan fungsi utilitas from_dict dan from_yaml untuk memuat konfigurasi augmentasi data dari DICT, JSON atau YAML
Secara resmi mendukung perbedaan dalam sebagian besar transformasi