torch audiomentations下載 - torch audiomentations源代碼下載

torch audiomentations

Python

v0.11.1

下載

Pytorch中的音頻數據增強。受聽眾的啟發。

支持CPU和GPU（CUDA） - 速度是優先級
支持批次多通道（或單聲道）音頻
變換擴展了nn.Module ，因此它們可以作為Pytorch神經網絡模型的一部分集成
大多數轉換是可區分的
三種模式： per_batch ， per_example和per_channel
跨平台兼容性
允許的麻省理工學院許可證
瞄準高測試覆蓋範圍

設定

pip install torch-audiomentations

用法示例

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

已知問題

目標數據處理仍處於實驗狀態（＃3）。解決方法：如果目標數據的音頻與輸入相同，則使用freeze_parameters和unfreeze_parameters現在使用Undreeze_parameters。
在多處理上下文中使用火炬審計會導致內存洩漏（＃132）。解決方法：如果在多處理上下文中使用火炬審計，則在CPU上運行轉換可能會更好。
多GPU / DDP不受正式支持（＃136）。作者沒有多GPU設置來測試和解決此問題。如果您想為此捐贈一些硬件，請聯繫。解決方法：改用單個GPU上的轉換。
PitchShift不支持小小的音高變化，尤其是對於低樣本率（＃151）。解決方法：如果您需要適用於低樣本速率的較小的音高偏移，請直接在聽眾或火炬旋轉中使用PitchShift，而無需計算有效的換擋目標的功能。

貢獻

貢獻者歡迎！加入小行星的懈怠，開始與我們討論torch-audiomentations 。

動機：速度

我們不希望數據擴展成為模型訓練速度的瓶頸。這是運行1D卷積所需的時間的比較：

捲動執行時間

注意：與CPU相比，並非所有轉換都具有令人印象深刻的加速。通常，在GPU上運行音頻數據並不總是最好的選擇。有關更多信息，請參閱本文：https：//iver56.github.io/audiomentations/guides/cpu_vs_gpu/

當前狀態

火炬原理處於早期開發階段，因此API可能會發生變化。

波形變換

每個變換都有mode ， p和p_mode - 決定如何執行增強的參數。

mode決定瞭如何將增強的隨機化分組和應用。
p決定應用增強的概率。
p_mode決定如何應用增強的ON/OFF。

該可視化顯示了mode和p_mode的不同組合將如何執行增強。

模式，P和P_MODE的說明

addbackgroundNoise

在v0.5.0中添加

在輸入音頻中添加背景噪聲。

addcolorednoise

在v0.7.0中添加

在輸入音頻中添加彩色噪聲。

apply impersersponse

在v0.5.0中添加

通過衝動響應來卷積給定的音頻。

BandpassFilter

在v0.9.0中添加

將帶通濾波應用於輸入音頻。

帶擋板

在v0.10.0中添加

在輸入音頻上應用帶擋局過濾。也稱為Notch過濾器。

獲得

在v0.1.0中添加

將音頻乘以隨機振幅因子，以減少或增加體積。該技術可以幫助模型成為輸入音頻的整體增益的不變性。

警告：此轉換可以返回[-1，1]範圍之外的樣品，這可能會導致剪輯或包裹失真，具體取決於您在以後的音頻中使用的內容。另請參見https://en.wikipedia.org/wiki/clipping_(audio)#digital_clipping

Highpassfilter

在v0.8.0中添加

將高通濾波應用於輸入音頻。

身份

在v0.11.0中添加

此轉換返回輸入不變。在應禁用數據增加的情況下，它可用於簡化代碼。

Lowpassfilter

在v0.8.0中添加

將低通濾波應用於輸入音頻。

峰值正常化

在v0.2.0中添加

應用恆定的增益，以便批處理中每個音頻片段中存在的最高信號水平變為0 dbfs，即，如果所有樣本必須在-1和1之間，則允許的最大水平。

此轉換具有替代模式（apply_to =“ halle_too_loud_sounds”），其中僅適用於在[-1，1]範圍之外具有極高值的音頻片段。這對於避免在音頻中的數字剪輯時很有用，而這些音頻太大了，而其他音頻則未受到影響。

俯仰

在v0.9.0中添加

換擋聲音向上或向下聽起來，而不會改變節奏。

PallityInversion

在v0.1.0中添加

翻轉音頻樣品顛倒，顛倒了它們的極性。換句話說，將波形乘以-1，因此負值變為正，反之亦然。與原始作品隔離時，結果聽起來會相同。但是，當與其他音頻源混合時，結果可能會有所不同。此波形反演技術有時用於取消音頻或獲得兩個波形之間的差異。但是，在音頻數據增強的背景下，當訓練階段感知機器學習模型時，此轉換可能很有用。

轉移

在v0.5.0中添加

在有或沒有滾動的情況下向前或向後移動音頻

洗牌通道

在v0.6.0中添加

給定多通道音頻輸入（例如立體聲），將頻道洗牌，例如，左可以變為右，反之亦然。這種轉換可以幫助打擊輸入多通道波形的機器學習模型中的位置偏差。

如果輸入音頻是單聲道，則此轉換除了發出警告外什麼都沒有。

時間定位

在v0.10.0中添加

反向（反向）沿時間軸的音頻類似於視覺域中圖像的隨機翻轉。這在音頻分類的背景下可能是相關的。它成功地應用於紙聲audioclip：將剪輯擴展到圖像，文本和音頻

ChangElog

未發行

額外

添加新的變換： Mix ， Padding ， RandomCrop和SpliceOut

[V0.11.1] -2024-02-07

改變了

在LowPassFilter和HighPassFilter中增加支持恆定截止頻率的支持
在AddColoredNoise中添加對MIN_F_DECAY == MAX_F_DECAY的支持
從> = 0.7.0到> = 0.9.0的顛簸依賴性

固定的

修復了Shift中的不准確類型提示
刪除set_backend ，以避免在Torchaudio中UserWarning

[V0.11.0] -2022-06-29

額外

添加新變換： Identity
將API添加用於處理目標的API。一些轉換已經在實驗上支持此功能。

改變了

添加ObjectDict輸出類型作為torch.Tensor的替代方案。該替代方案現在是選擇加入的（用於向後兼容），但請注意，舊輸出類型（ torch.Tensor ）被棄用，對其的支持將在以後的版本中刪除。
允許指定文件路徑，文件夾路徑，文件列表或文件夾列表來AddBackgroundNoise ApplyImpulseResponse
需要較新版本的torch-pitch-shift以確保在PitchShift中支持Torchaudio 0.11

固定的

修復BandPassFilter在GPU上不起作用的錯誤

[V0.10.1] -2022-03-24

額外

AddBackgroundNoise對Min Snr == Max SNR的支持
添加對天秤座0.9.0的支持

固定的

修復一個錯誤，有時將加載的音頻片段重新採樣到AddBackgroundNoise中的不兼容長度

[V0.10.0] -2022-02-11

額外

實施OneOf或SomeOf ，以應用一組或多種轉換集
實施新的變換： BandStopFilter和TimeInversion

改變了

將ir_paths在transform_parameters中放置在ApplyImpulseResponse中，以便檢查使用了哪些脈衝響應。這也使freeze_parameters()預期行為。

固定的

修復一個錯誤，其中實際帶寬是BandPassFilter中預期的兩倍。默認值已相應更新。如果您以前是指定min_bandwidth_fraction和/或max_bandwidth_fraction ，則現在需要將這些數字加倍才能獲得與以前相同的行為。

[V0.9.1] -2021-12-20

額外

正式標記Python> = 3.9

[V0.9.0] -2021-10-11

額外

添加參數compensate_for_propagation_delay在ApplyImpulseResponse中
實施BandPassFilter
實施PitchShift

刪除

對Torchaudio的支持<= 0.6已被刪除

[V0.8.0] -2021-06-15

額外

實施HighPassFilter和LowPassFilter

棄用

對Torchaudio的支持<= 0.6被棄用，將來將被刪除

刪除

pytorch <= 1.6的支持已刪除

[V0.7.0] -2021-04-16

額外

實施AddColoredNoise

棄用

對Pytorch <= 1.6的支持被棄用，將來將被刪除

[V0.6.0] -2021-02-22

額外

實施ShuffleChannels

[V0.5.1] -2020-12-18

固定的

修復一個錯誤，而AddBackgroundNoise在CUDA上不起作用
修復尋找音頻文件時找不到同類音頻文件/文件夾的錯誤
如果可能，請使用Torch.fft.rfft而不是Torch.RFFT（在Pytorch 1.7中棄用）。作為獎勵，變化還提高了ApplyImpulseResponse性能。