torch audiomentations torch audiomentations

torch audiomentations

Питон

v0.11.1

Скачать

Увеличение аудиоданных в Pytorch. Вдохновленный аудиоманциями.

Поддерживает процессор и графический процессор (CUDA) - скорость является приоритетом
Поддерживает партии многоканального (или моно) аудио
Преобразования расширяют nn.Module , поэтому они могут быть интегрированы как часть модели нейронной сети Pytorch
Большинство преобразований дифференцируют
Три режима: per_batch , per_example и per_channel
Кроссплатформенная совместимость
Разрешительная лицензия MIT
Стремление к высокому тестовому покрытию

Настраивать

pip install torch-audiomentations

Пример использования

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

Известные проблемы

Целевая обработка данных все еще находится в экспериментальном состоянии (#3). Обходной путь: используйте freeze_parameters и unfreeze_parameters .
Использование факела-автоментации в многопроцестройном контексте может привести к утечкам памяти (#132). Обходной путь: Если использование факела-аудиоментации в многопрофильном контексте, он, вероятно, будет лучше работать для запуска преобразования в процессоре.
Multi-GPU / DDP официально не поддерживается (#136). У автора нет настройки с несколькими GPU, чтобы проверить и исправить это. Свяжитесь с нами, если вы хотите пожертвовать для этого какое -то оборудование. Обходной путь: вместо этого запустите преобразование на отдельном графическом процессоре.
PitchShift не поддерживает небольшие сдвиги шага, особенно для низких показателей дискретизации (#151). Обходной путь: если вам нужны малые сдвиги шага, применяемые к низким показателям дискретизации, используйте перенос в аудиоменах или сдвиг с факелом непосредственно без функции для расчета эффективных целей сдвига шага.

Способствовать

Участники приветствуются! Присоединяйтесь к слабым астероиду, чтобы начать обсуждать с нами torch-audiomentations .

Мотивация: скорость

Мы не хотим, чтобы увеличение данных было узким местом в скорости тренировок. Вот сравнение времени, необходимого для запуска 1D свертки:

Совершите время исполнения

Примечание. Не все преобразования имеют ускорение, впечатляющее по сравнению с процессором. В целом, запуск аудиодативных данных на графическом процессоре не всегда является лучшим вариантом. Для получения дополнительной информации см. В этой статье: https://iver56.github.io/audiomentations/guides/cpu_vs_gpu/

Текущее состояние

Факел-авторские препараты находятся на ранней стадии развития, поэтому API могут быть изменены.

Преобразования формы волны

Каждое преобразование имеет mode , p и p_mode - параметры, которые решают, как выполняется увеличение.

mode решает, как рандомизация увеличения сгруппирована и применяется.
p решает вероятность применения увеличения.
p_mode решает, как применяется включение/выключение увеличения.

Эта визуализация показывает, как различные комбинации mode и p_mode будут выполнять увеличение.

Объяснение Mode, P и P_Mode

Addbackgroundnoise

Добавлен в V0.5.0

Добавьте фоновый шум в входной аудио.

Addcolorednoise

Добавлено в v0.7.0

Добавьте цветный шум в входной аудио.

Применить impulseresponse

Добавлен в V0.5.0

Создать данное звук с импульсивными ответами.

BandPassFilter

Добавлен в v0.9.0

Применить фильтрацию полосы проходов на входной аудио.

Bandstopfilter

Добавлено в v0.10.0

Применить фильтрацию с полосой к входному аудио. Также известен как Notch Filter.

Прирост

Добавлено в v0.1.0

Умножьте звук на коэффициент случайной амплитуды, чтобы уменьшить или увеличить объем. Этот метод может помочь модели стать несколько инвариантной к общему усилению входного аудио.

ПРЕДУПРЕЖДЕНИЕ: Это преобразование может возвращать образцы за пределами диапазона [-1, 1], что может привести к обрезанию или искажению обертывания, в зависимости от того, что вы делаете с аудио на более поздней стадии. См. Также https://en.wikipedia.org/wiki/clipping_(Audio)#digital_clipping

HighPassFilter

Добавлено в v0.8.0

Примените фильтрацию с высокой частотой на входной аудио.

Личность

Добавлено в v0.11.0

Это преобразование возвращает вход без изменений. Его можно использовать для упрощения кода в тех случаях, когда увеличение данных должно быть отключено.

Низкий проходной фон

Добавлено в v0.8.0

Примените фильтрацию низкопрохожника на входной аудио.

Пикнормализация

Добавлено в V0.2.0

Примените постоянное количество усиления, так что самый высокий уровень сигнала, присутствующий в каждом фрагменте звука в партии, становится 0 дБФ, то есть, самый громкий уровень, разрешенный, если все образцы должны быть от -1 до 1.

Это преобразование имеет альтернативный режим (Apply_to = "только_TOO_LOUD_SOUNDS"), где он применим только к фрагментам аудио, которые имеют экстремальные значения за пределами диапазона [-1, 1]. Это полезно для того, чтобы избежать цифровой обрезки в аудио, который слишком громкий, оставляя другие звуки нетронутыми.

Шахмат

Добавлен в v0.9.0

Сдвиг шага звучит вверх или вниз, не изменяя темп.

Полярность

Добавлено в v0.1.0

Переверните образцы звука вверх дном, отменив свою полярность. Другими словами, умножьте форму волны на -1, чтобы отрицательные значения стали положительными, и наоборот. Результат будет звучать одинаково по сравнению с оригиналом при воспроизведении в изоляции. Однако при смешивании с другими источниками аудио, результат может быть другим. Этот метод инверсии формы волны иногда используется для отмены звука или получения разницы между двумя формами волны. Тем не менее, в контексте увеличения аудиоданных, это преобразование может быть полезно при обучении моделей машинного обучения.

Сдвиг

Добавлен в V0.5.0

Сдвиг аудио вперед или назад, с или без него

ShuffleChannels

Добавлено в v0.6.0

Учитывая многоканальный звуковой ввод (например, стерео), перетасовать каналы, например, влево может стать правым и наоборот. Это преобразование может помочь бороться с позиционным смещением в моделях машинного обучения, которые вводят многоканальные сигналы.

Если входной звук является моно, это преобразование ничего не делает, кроме как излучать предупреждение.

Времени

Добавлено в v0.10.0

Обратный (инвертируйте) аудио вдоль оси времени, аналогичной случайному перевороту изображения в визуальной области. Это может быть актуально в контексте аудио -классификации. Он был успешно применен в бумажной аудиооклипке: расширение клипа на изображение, текст и аудио

Изменение

Неиздан

Добавлен

Добавить новые преобразования: Mix , Padding , RandomCrop и SpliceOut

[v0.11.1]-2024-02-07

Измененный

Добавить поддержку для постоянной частоты среза в LowPassFilter и HighPassFilter
Добавить поддержку min_f_decay == max_f_decay в AddColoredNoise
Зависимость от удара Torchaudio от> = 0,7,0 до> = 0,9,0

Зафиксированный

Исправить неточные подсказки типа в Shift
Удалить set_backend , чтобы избежать UserWarning из Torchaudio

[v0.11.0]-2022-06-29

Добавлен

Добавить новое преобразование: Identity
Добавьте API для обработки целей наряду с входами. Некоторые преобразования экспериментально поддерживают эту функцию.

Измененный

Добавьте тип выхода ObjectDict в качестве альтернативы torch.Tensor . Эта альтернатива на данный момент (для обратной совместимости), но обратите внимание, что старый выходной тип ( torch.Tensor ) устарел, и поддержка его будет удалена в будущей версии.
Разрешить указать путь к файлу, путь папки, список файлов или список папок для AddBackgroundNoise и ApplyImpulseResponse
Требовать более новой версии torch-pitch-shift PitchShift

Зафиксированный

Исправьте ошибку, где BandPassFilter не работал на графическом процессоре

[v0.10.1]-2022-03-24

Добавлен

Добавить поддержку для min snr == max snr в AddBackgroundNoise
Добавьте поддержку Librosa 0.9.0

Зафиксированный

Исправить ошибку, в которой загруженные аудио фрагменты иногда переименовались в несовместимую длину в AddBackgroundNoise

[v0.10.0]-2022-02-11

Добавлен

Реализуйте OneOf и SomeOf для применения одного или нескольких заданных набора преобразований
Реализация новых преобразований: BandStopFilter и TimeInversion

Измененный

Поместите ir_paths в Transform_parameters в ApplyImpulseResponse , чтобы можно было проверить, какие импульсные ответы были использованы. Это также дает freeze_parameters() ожидаемое поведение.

Зафиксированный

Исправьте ошибку, где фактическая полоса пропускания была в два раза больше, чем ожидалось в BandPassFilter . Значения по умолчанию были обновлены соответственно. Если вы ранее указывали min_bandwidth_fraction и/или max_bandwidth_fraction , теперь вам нужно удвоить эти числа, чтобы получить то же поведение, что и раньше.

[v0.9.1]-2021-12-20

Добавлен

Официально отмечает Python> = 3,9, как поддерживается

[v0.9.0]-2021-10-11

Добавлен

Добавить параметр compensate_for_propagation_delay в ApplyImpulseResponse
Реализовать BandPassFilter
Реализовать PitchShift

Удаленный

Поддержка Torchaudio <= 0,6 была удалена

[v0.8.0]-2021-06-15

Добавлен

Внедрить HighPassFilter и LowPassFilter

Устарел

Поддержка Torchaudio <= 0,6 устарела и будет удалена в будущем

Удаленный

Поддержка Pytorch <= 1,6 была удалена

[v0.7.0]-2021-04-16

Добавлен

Реализовать AddColoredNoise

Устарел

Поддержка Pytorch <= 1,6 устарела и будет удалена в будущем

[v0.6.0]-2021-02-22

Добавлен

Реализовать ShuffleChannels

[v0.5.1]-2020-12-18

Зафиксированный

Исправьте ошибку, где AddBackgroundNoise не работал на Cuda
Исправьте ошибку, в которой символизированные аудиофайлы/папки не были найдены при поиске аудиофайлов
Используйте Torch.fft.rfft вместо Torch.rfft (устарел в Pytorch 1.7), когда это возможно. В качестве бонуса изменение также повышает производительность в ApplyImpulseResponse .

[v0.5.0]-2020-12-08

Добавлен

Выпустить AddBackgroundNoise и ApplyImpulseResponse
Реализовать Shift

Измененный

Сделайте sample_rate необязательным. Разрешить указать sample_rate в __init__ вместо forward . Это означает, что преобразование Torchaudio можно использовать сейчас в Compose .

Удаленный

Удалите поддержку 1-мерных и 2-мерных аудио-тензоров. Сейчас поддерживаются только 3-мерные аудио-тензоры.

Зафиксированный

Исправьте ошибку, в которой нельзя использовать метод parameters подкласса nn.Module
Исправить ошибку, в которой файлы с расширением файла верхнего файла не были найдены

[v0.4.0]-2020-11-10

Добавлен

Реализуйте Compose для применения нескольких преобразований
Реализовать функции утилиты from_dict и from_yaml для загрузки конфигураций увеличения данных из DICT, JSON или YAML
Официально поддерживает дифференциацию в большинстве преобразований