torch audiomentations Download - torch audiomentations Código Fonte Download

torch audiomentations

Pitão

v0.11.1

Baixar

Aumentação de dados de áudio em Pytorch. Inspirado em audiomentações.

Suporta CPU e GPU (CUDA) - a velocidade é uma prioridade
Suporta lotes de áudio multicanal (ou mono)
Transforms estende nn.Module , para que possam ser integrados como parte de um modelo de rede neural pytorch
A maioria das transformações é diferenciável
Três modos: per_batch , per_example e per_channel
Compatibilidade entre plataformas
Licença permissiva do MIT
Buscando uma alta cobertura de teste

Configurar

pip install torch-audiomentations

Exemplo de uso

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

Questões conhecidas

O processamento de dados de destino ainda está em um estado experimental (nº 3). Solução alternativa: use freeze_parameters e unfreeze_parameters Por enquanto, se os dados de destino forem áudio com a mesma forma que a entrada.
O uso de tocha-audiomentiações em um contexto multiprocessante pode levar a vazamentos de memória (#132). Solução alternativa: Se estiver usando a tocha-audiomentiações em um contexto multiprocessante, provavelmente funcionará melhor para executar as transformações na CPU.
Multi-GPU / DDP não é oficialmente suportado (#136). O autor não possui uma configuração multi-GPU para testar e consertar isso. Entre em contato se quiser doar algum hardware para isso. Solução alternativa: execute as transformações na GPU único.
PitchShift não suporta pequenas mudanças de afinação, especialmente para baixas taxas de amostragem (#151). Solução alternativa: se você precisar de pequenas mudanças de afinação aplicadas a baixas taxas de amostragem, use o pitchshift em audiomentações ou deslocamento de tocha diretamente sem a função para calcular alvos eficientes de deslocamento de afinação.

Contribuir

Contribuidores são bem -vindos! Junte-se à folga do asteróide para começar a discutir sobre torch-audiomentations conosco.

Motivação: velocidade

Não queremos que o aumento de dados seja um gargalo na velocidade de treinamento do modelo. Aqui está uma comparação do tempo necessário para executar a convolução 1D:

Tempos de execução de convolução

NOTA: Nem todas as transformações têm uma aceleração tão impressionante em comparação com a CPU. Em geral, o aumento de dados de áudio na GPU nem sempre é a melhor opção. Para mais informações, consulte este artigo: https://iver56.github.io/audiomentations/guides/cpu_vs_gpu/

Estado atual

Torch-Audiomentations está em um estágio inicial de desenvolvimento; portanto, as APIs estão sujeitas a alterações.

Transformações da forma de onda

Cada transformação tem mode , p e p_mode - os parâmetros que decidem como o aumento é executado.

mode decide como a randomização do aumento é agrupada e aplicada.
p decide a probabilidade ON/OFF de aplicar o aumento.
p_mode decide como o aumento/desativação do aumento é aplicado.

Essa visualização mostra como diferentes combinações de mode e p_mode executariam um aumento.

Explicação do modo, P e P_Mode

Addbackgroundnoise

Adicionado na v0.5.0

Adicione o ruído de fundo ao áudio de entrada.

AddColoredNoise

Adicionado em v0.7.0

Adicione o ruído colorido ao áudio de entrada.

APLICATIMPURSESPONSE

Adicionado na v0.5.0

Convidar o áudio fornecido com respostas de impulso.

BandPassfilter

Adicionado na v0.9.0

Aplique a filtragem de passa-banda no áudio de entrada.

BandstopFilter

Adicionado na v0.10.0

Aplique filtragem de parada de banda no áudio de entrada. Também conhecido como filtro Notch.

Ganho

Adicionado em v0.1.0

Multiplique o áudio por um fator de amplitude aleatória para reduzir ou aumentar o volume. Essa técnica pode ajudar um modelo a se tornar um tanto invariante para o ganho geral do áudio de entrada.

AVISO: Essa transformação pode retornar amostras para fora da faixa [-1, 1], o que pode levar a recorte ou embrulhar distorção, dependendo do que você faz com o áudio em um estágio posterior. Veja também https://en.wikipedia.org/wiki/clipping_(audio)#digital_clipping

HighPassfilter

Adicionado em v0.8.0

Aplique a filtragem passa-alta no áudio de entrada.

Identidade

Adicionado na v0.11.0

Esta transformação retorna a entrada inalterada. Ele pode ser usado para simplificar o código nos casos em que o aumento de dados deve ser desativado.

LowPassfilter

Adicionado em v0.8.0

Aplique filtragem passa-baixa no áudio de entrada.

PeakNormalization

Adicionado na v0.2.0

Aplique uma quantidade constante de ganho, para que o nível mais alto de sinal presente em cada trecho de áudio no lote se torne 0 dBfs, ou seja, o nível mais alto permitido se todas as amostras devem estar entre -1 e 1.

Essa transformação possui um modo alternativo (APLIC_TO = "ONE_TOO_LOUD_SOUNDS"), onde se aplica apenas a trechos de áudio que possuem valores extremos fora da faixa [-1, 1]. Isso é útil para evitar o recorte digital no áudio que é muito alto, deixando outro áudio intocado.

Pitchshift

Adicionado na v0.9.0

A mudança de passo soa para cima ou para baixo sem alterar o ritmo.

PolarityInversion

Adicionado em v0.1.0

Vire as amostras de áudio de cabeça para baixo, revertendo sua polaridade. Em outras palavras, multiplique a forma de onda por -1, para que os valores negativos se tornem positivos e vice -versa. O resultado soará o mesmo em comparação com o original quando reproduzido em isolamento. No entanto, quando misturado com outras fontes de áudio, o resultado pode ser diferente. Às vezes, essa técnica de inversão da forma de onda é usada para cancelamento de áudio ou obter a diferença entre duas formas de onda. No entanto, no contexto do aumento de dados de áudio, essa transformação pode ser útil ao treinar modelos de aprendizado de máquina com reconhecimento de fase.

Mudança

Adicionado na v0.5.0

Mude o áudio para frente ou para trás, com ou sem rolagem

Shufflechannels

Adicionado em v0.6.0

Dada a entrada de áudio multicanal (por exemplo, estéreo), embaralhe os canais, por exemplo, a esquerda pode se tornar certa e vice -versa. Essa transformação pode ajudar a combater o viés posicional em modelos de aprendizado de máquina que inseram formas de onda multicanal.

Se o áudio de entrada for mono, essa transformação não fará nada, exceto emite um aviso.

TimeInversion

Adicionado na v0.10.0

Reverte (inverter) o áudio ao longo do eixo do tempo semelhante ao flip aleatório de uma imagem no domínio visual. Isso pode ser relevante no contexto da classificação de áudio. Foi aplicado com sucesso no papel Audioclip: estendendo o clipe à imagem, texto e áudio

Changelog

Não lançado

Adicionado

Adicione novas transformadas: Mix , Padding , RandomCrop e SpliceOut

[v0.11.1]-2024-02-07

Mudado

Adicione suporte para frequência de corte constante em LowPassFilter e HighPassFilter
Adicione suporte para min_f_decay == max_f_decay em AddColoredNoise
Bump Torchaudio Dependência de> = 0,7,0 a> = 0.9.0

Fixo

Corrija dicas de tipo imprecisas no Shift
Remova set_backend para evitar UserWarning do Torchaudio

[v0.11.0]-2022-06-29

Adicionado

Adicionar nova transformação: Identity
Adicione a API para o processamento de metas juntamente com as entradas. Alguns transformam experimentalmente esse recurso já.

Mudado

Adicione o tipo de saída ObjectDict como alternativa à torch.Tensor . Essa alternativa é aceita por enquanto (para compatibilidade com versões anteriores), mas observe que o tipo de saída antigo ( torch.Tensor ) está descontinuado e o suporte para ele será removido em uma versão futura.
Permitir especificar um caminho de arquivo, um caminho de pasta, uma lista de arquivos ou uma lista de pastas para AddBackgroundNoise e ApplyImpulseResponse
Exigir uma versão mais recente do torch-pitch-shift para garantir o suporte para Torchaudio 0.11 no PitchShift

Fixo

Corrija um bug onde BandPassFilter não funcionou na GPU

[v0.10.1]-2022-03-24

Adicionado

Adicione suporte para Min SNR == Max Snr no AddBackgroundNoise
Adicionar suporte para Librosa 0.9.0

Fixo

Corrija um bug onde os trechos de áudio carregados às vezes eram reamostrados em um comprimento incompatível no AddBackgroundNoise

[v0.10.0]-2022-02-11

Adicionado

Implementar OneOf e SomeOf para aplicar um ou mais um determinado conjunto de transformações
Implementar novas transformadas: BandStopFilter e TimeInversion

Mudado

Coloque ir_paths em transform_parameters no ApplyImpulseResponse para que seja possível inspecionar quais respostas de impulso foram usadas. Isso também fornece freeze_parameters() o comportamento esperado.

Fixo

Corrija um bug em que a largura de banda real era duas vezes maior que o esperado no BandPassFilter . Os valores padrão foram atualizados de acordo. Se você estava especificando anteriormente min_bandwidth_fraction e/ou max_bandwidth_fraction , agora precisa dobrar esses números para obter o mesmo comportamento de antes.

[v0.9.1]-2021-12-20

Adicionado

Marque oficialmente Python> = 3,9 conforme suportado

[v0.9.0]-2021-10-11

Adicionado

Adicionar parâmetro compensate_for_propagation_delay no ApplyImpulseResponse
Implementar BandPassFilter
Implementar PitchShift

Removido

O suporte ao TorChaudio <= 0,6 foi removido

[v0.8.0]-2021-06-15

Adicionado

Implementar HighPassFilter e LowPassFilter

Descontinuado

O suporte ao TorChaudio <= 0,6 é depreciado e será removido no futuro

Removido

O suporte para pytorch <= 1.6 foi removido

[v0.7.0]-2021-04-16

Adicionado

Implementar AddColoredNoise

Descontinuado

O suporte a pytorch <= 1.6 é preterido e será removido no futuro

[v0.6.0]-2021-02-22

Adicionado

Implementar ShuffleChannels

[v0.5.1]-2020-12-18

Fixo

Corrija um bug em que AddBackgroundNoise não funcionou no CUDA
Corrija um bug onde arquivos/pastas de áudio simplificados não foram encontrados ao procurar arquivos de áudio
Use Torch.fft.rfft em vez da tocha.rfft (depreciado em pytorch 1.7) quando possível. Como bônus, a alteração também melhora o desempenho no ApplyImpulseResponse .

[v0.5.0]-2020-12-08

Adicionado

Libere AddBackgroundNoise e ApplyImpulseResponse
Implementar Shift

Mudado

Torne sample_rate Opcional. Deixe especificar sample_rate em __init__ em vez de forward . Isso significa que as transformações de Torchaudio podem ser usadas no Compose agora.

Removido

Remova o suporte para tensores de áudio unidimensionais e bidimensionais. Apenas os tensores de áudio tridimensionais são suportados agora.

Fixo

Corrija um bug no qual não se pode usar o método parameters da subclasse nn.Module
Corrija um bug em que os arquivos com a extensão do nome do arquivo superior não foram encontrados