torch audiomentations下载 - torch audiomentations源代码下载

torch audiomentations

Python

v0.11.1

下载

Pytorch中的音频数据增强。受听众的启发。

支持CPU和GPU（CUDA） - 速度是优先级
支持批次多通道（或单声道）音频
变换扩展了nn.Module ，因此它们可以作为Pytorch神经网络模型的一部分集成
大多数转换是可区分的
三种模式： per_batch ， per_example和per_channel
跨平台兼容性
允许的麻省理工学院许可证
瞄准高测试覆盖范围

设置

pip install torch-audiomentations

用法示例

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

已知问题

目标数据处理仍处于实验状态（＃3）。解决方法：如果目标数据的音频与输入相同，则使用freeze_parameters和unfreeze_parameters现在使用Undreeze_parameters。
在多处理上下文中使用火炬审计会导致内存泄漏（＃132）。解决方法：如果在多处理上下文中使用火炬审计，则在CPU上运行转换可能会更好。
多GPU / DDP不受正式支持（＃136）。作者没有多GPU设置来测试和解决此问题。如果您想为此捐赠一些硬件，请联系。解决方法：改用单个GPU上的转换。
PitchShift不支持小小的音高变化，尤其是对于低样本率（＃151）。解决方法：如果您需要适用于低样本速率的较小的音高偏移，请直接在听众或火炬旋转中使用PitchShift，而无需计算有效的换挡目标的功能。

贡献

贡献者欢迎！加入小行星的懈怠，开始与我们讨论torch-audiomentations 。

动机：速度

我们不希望数据扩展成为模型训练速度的瓶颈。这是运行1D卷积所需的时间的比较：

卷动执行时间

注意：与CPU相比，并非所有转换都具有令人印象深刻的加速。通常，在GPU上运行音频数据并不总是最好的选择。有关更多信息，请参阅本文：https：//iver56.github.io/audiomentations/guides/cpu_vs_gpu/

当前状态

火炬原理处于早期开发阶段，因此API可能会发生变化。

波形变换

每个变换都有mode ， p和p_mode - 决定如何执行增强的参数。

mode决定了如何将增强的随机化分组和应用。
p决定应用增强的概率。
p_mode决定如何应用增强的ON/OFF。

该可视化显示了mode和p_mode的不同组合将如何执行增强。

模式，P和P_MODE的说明

addbackgroundNoise

在v0.5.0中添加

在输入音频中添加背景噪声。

addcolorednoise

在v0.7.0中添加

在输入音频中添加彩色噪声。

apply impersersponse

在v0.5.0中添加

通过冲动响应来卷积给定的音频。

BandpassFilter

在v0.9.0中添加

将带通滤波应用于输入音频。

带挡板

在v0.10.0中添加

在输入音频上应用带挡局过滤。也称为Notch过滤器。

获得

在v0.1.0中添加

将音频乘以随机振幅因子，以减少或增加体积。该技术可以帮助模型成为输入音频的整体增益的不变性。

警告：此转换可以返回[-1，1]范围之外的样品，这可能会导致剪辑或包裹失真，具体取决于您在以后的音频中使用的内容。另请参见https://en.wikipedia.org/wiki/clipping_(audio)#digital_clipping

Highpassfilter

在v0.8.0中添加

将高通滤波应用于输入音频。

身份

在v0.11.0中添加

此转换返回输入不变。在应禁用数据增加的情况下，它可用于简化代码。

Lowpassfilter

在v0.8.0中添加

将低通滤波应用于输入音频。

峰值正常化

在v0.2.0中添加

应用恒定的增益，以便批处理中每个音频片段中存在的最高信号水平变为0 dbfs，即，如果所有样本必须在-1和1之间，则允许的最大水平。

此转换具有替代模式（apply_to =“ halle_too_loud_sounds”），其中仅适用于在[-1，1]范围之外具有极高值的音频片段。这对于避免在音频中的数字剪辑时很有用，而这些音频太大了，而其他音频则未受到影响。

俯仰

在v0.9.0中添加

换挡声音向上或向下听起来，而不会改变节奏。

PallityInversion

在v0.1.0中添加

翻转音频样品颠倒，颠倒了它们的极性。换句话说，将波形乘以-1，因此负值变为正，反之亦然。与原始作品隔离时，结果听起来会相同。但是，当与其他音频源混合时，结果可能会有所不同。此波形反演技术有时用于取消音频或获得两个波形之间的差异。但是，在音频数据增强的背景下，当训练阶段感知机器学习模型时，此转换可能很有用。

转移

在v0.5.0中添加

在有或没有滚动的情况下向前或向后移动音频

洗牌通道

在v0.6.0中添加

给定多通道音频输入（例如立体声），将频道洗牌，例如，左可以变为右，反之亦然。这种转换可以帮助打击输入多通道波形的机器学习模型中的位置偏差。

如果输入音频是单声道，则此转换除了发出警告外什么都没有。

时间定位

在v0.10.0中添加

反向（反向）沿时间轴的音频类似于视觉域中图像的随机翻转。这在音频分类的背景下可能是相关的。它成功地应用于纸声audioclip：将剪辑扩展到图像，文本和音频

ChangElog

未发行

额外

添加新的变换： Mix ， Padding ， RandomCrop和SpliceOut

[V0.11.1] -2024-02-07

改变了

在LowPassFilter和HighPassFilter中增加支持恒定截止频率的支持
在AddColoredNoise中添加对MIN_F_DECAY == MAX_F_DECAY的支持
从> = 0.7.0到> = 0.9.0的颠簸依赖性

固定的

修复了Shift中的不准确类型提示
删除set_backend ，以避免在Torchaudio中UserWarning

[V0.11.0] -2022-06-29

额外

添加新变换： Identity
将API添加用于处理目标的API。一些转换已经在实验上支持此功能。

改变了

添加ObjectDict输出类型作为torch.Tensor的替代方案。该替代方案现在是选择加入的（用于向后兼容），但请注意，旧输出类型（ torch.Tensor ）被弃用，对其的支持将在以后的版本中删除。
允许指定文件路径，文件夹路径，文件列表或文件夹列表来AddBackgroundNoise ApplyImpulseResponse
需要较新版本的torch-pitch-shift以确保在PitchShift中支持Torchaudio 0.11

固定的

修复BandPassFilter在GPU上不起作用的错误

[V0.10.1] -2022-03-24

额外

AddBackgroundNoise对Min Snr == Max SNR的支持
添加对天秤座0.9.0的支持

固定的

修复一个错误，有时将加载的音频片段重新采样到AddBackgroundNoise中的不兼容长度

[V0.10.0] -2022-02-11

额外

实施OneOf或SomeOf ，以应用一组或多种转换集
实施新的变换： BandStopFilter和TimeInversion

改变了

将ir_paths在transform_parameters中放置在ApplyImpulseResponse中，以便检查使用了哪些脉冲响应。这也使freeze_parameters()预期行为。

固定的

修复一个错误，其中实际带宽是BandPassFilter中预期的两倍。默认值已相应更新。如果您以前是指定min_bandwidth_fraction和/或max_bandwidth_fraction ，则现在需要将这些数字加倍才能获得与以前相同的行为。

[V0.9.1] -2021-12-20

额外

正式标记Python> = 3.9

[V0.9.0] -2021-10-11

额外

添加参数compensate_for_propagation_delay在ApplyImpulseResponse中
实施BandPassFilter
实施PitchShift

删除

对Torchaudio的支持<= 0.6已被删除

[V0.8.0] -2021-06-15

额外

实施HighPassFilter和LowPassFilter

弃用

对Torchaudio的支持<= 0.6被弃用，将来将被删除

删除

pytorch <= 1.6的支持已删除

[V0.7.0] -2021-04-16

额外

实施AddColoredNoise

弃用

对Pytorch <= 1.6的支持被弃用，将来将被删除

[V0.6.0] -2021-02-22

额外

实施ShuffleChannels

[V0.5.1] -2020-12-18

固定的

修复一个错误，而AddBackgroundNoise在CUDA上不起作用
修复寻找音频文件时找不到同类音频文件/文件夹的错误
如果可能，请使用Torch.fft.rfft而不是Torch.RFFT（在Pytorch 1.7中弃用）。作为奖励，变化还提高了ApplyImpulseResponse性能。