Descarga torch audiomentations - torch audiomentations Descargar código fuente

torch audiomentations

Pitón

v0.11.1

Descargar

Audio Aumento de datos en Pytorch. Inspirado en audiomentaciones.

Admite CPU y GPU (CUDA): la velocidad es una prioridad
Admite lotes de audio multicanal (o mono)
Las transformaciones extienden nn.Module , por lo que pueden integrarse como parte de un modelo de red neuronal de Pytorch
La mayoría de las transformaciones son diferenciables
Tres modos: per_batch , per_example y per_channel
Compatibilidad multiplataforma
Licencia MIT permisiva
Apuntando a una alta cobertura de prueba

Configuración

pip install torch-audiomentations

Ejemplo de uso

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

Problemas conocidos

El procesamiento de datos objetivo todavía está en un estado experimental (#3). Solución alternativa: use freeze_parameters y unfreeze_parameters por ahora si los datos de destino son audio con la misma forma que la entrada.
El uso de audiomenciones de antorcha en un contexto de multiprocesamiento puede conducir a fugas de memoria (#132). Solución alternativa: si se usa audiomenciones de antorcha en un contexto de multiprocesamiento, probablemente funcionará mejor ejecutar las transformaciones en la CPU.
Multi-GPU / DDP no es compatible oficialmente (#136). El autor no tiene una configuración de múltiples GPU para probar y solucionarlo. Póngase en contacto si desea donar algo de hardware para esto. Solución alternativa: ejecute las transformaciones en una sola GPU.
PitchShift no admite pequeños cambios de tono, especialmente para bajas velocidades de muestreo (#151). Solución alternativa: si necesita pequeños turnos de tono aplicados a bajas velocidades de muestra, use PitchShift en audiomentaciones o Torch-Pitch-Shift directamente sin la función para calcular objetivos eficientes de cambio de cabeceo.

Contribuir

¡Los contribuyentes bienvenidos! Únase a la holgura del asteroide para comenzar a discutir sobre torch-audiomentations con nosotros.

Motivación: velocidad

No queremos que el aumento de datos sea un cuello de botella en la velocidad de entrenamiento modelo. Aquí hay una comparación del tiempo que lleva ejecutar 1D convolución:

Tiempos de ejecución de referencia

Nota: No todas las transformaciones tienen una aceleración tan impresionante en comparación con la CPU. En general, ejecutar el aumento de datos de audio en GPU no siempre es la mejor opción. Para obtener más información, consulte este artículo: https://iver56.github.io/audiomentations/guides/cpu_vs_gpu/

Estado actual

Las audiomenciones de antorcha se encuentran en una etapa de desarrollo temprano, por lo que las API están sujetas a cambios.

Transforma la forma de onda

Cada transformación tiene mode , p y p_mode : los parámetros que deciden cómo se realiza el aumento.

mode decide cómo se agrupa y aplica la aleatorización del aumento.
p decide la probabilidad de encendido/apagado de aplicar el aumento.
p_mode decide cómo se aplica el encendido/apagado del aumento.

Esta visualización muestra cómo diferentes combinaciones de mode y p_mode realizarían un aumento.

Explicación del modo, P y P_Mode

Addbackgroundnoise

Agregado en v0.5.0

Agregue el ruido de fondo al audio de entrada.

AddColoredNoise

Agregado en v0.7.0

Agregue el ruido de color al audio de entrada.

Aplicar la respuesta

Agregado en v0.5.0

Convolucionar el audio dado con respuestas de impulso.

Bandpassfilter

Agregado en V0.9.0

Aplique el filtrado de paso de banda al audio de entrada.

Estopfilter

Agregado en v0.10.0

Aplique filtrado de parada de banda al audio de entrada. También conocido como filtro de muescas.

Ganar

Agregado en v0.1.0

Multiplique el audio por un factor de amplitud aleatorio para reducir o aumentar el volumen. Esta técnica puede ayudar a que un modelo se vuelva algo invariante para la ganancia general del audio de entrada.

ADVERTENCIA: Esta transformación puede devolver muestras fuera del rango [-1, 1], lo que puede conducir a una distorsión de recorte o envoltura, dependiendo de lo que haga con el audio en una etapa posterior. Ver también https://en.wikipedia.org/wiki/clipping_(audio)#digital_clipping

Alguacil

Agregado en v0.8.0

Aplique un filtrado de paso alto al audio de entrada.

Identidad

Agregado en V0.11.0

Esta transformación devuelve la entrada sin cambios. Se puede usar para simplificar el código en los casos en que el aumento de datos debe deshabilitarse.

Pasador bajo

Agregado en v0.8.0

Aplique un filtrado de paso bajo al audio de entrada.

Pico normalización

Agregado en v0.2.0

Aplique una cantidad constante de ganancia, de modo que el nivel de señal más alto presente en cada fragmento de audio en el lote se convierta en 0 dBF, es decir, el nivel más fuerte permitido si todas las muestras deben estar entre -1 y 1.

Esta transformación tiene un modo alternativo (aplicar_to = "solo_too_loud_sounds") donde solo se aplica a los fragmentos de audio que tienen valores extremos fuera del rango [-1, 1]. Esto es útil para evitar el recorte digital en audio que es demasiado ruidoso, al tiempo que deja otro audio intacto.

Desplazamiento

Agregado en V0.9.0

Pitch-Shift suena hacia arriba o hacia abajo sin cambiar el tempo.

Polarityinversion

Agregado en v0.1.0

Voltee las muestras de audio al revés, invirtiendo su polaridad. En otras palabras, multiplique la forma de onda por -1, por lo que los valores negativos se vuelven positivos, y viceversa. El resultado sonará igual en comparación con el original cuando se reproduce de forma aislada. Sin embargo, cuando se mezcla con otras fuentes de audio, el resultado puede ser diferente. Esta técnica de inversión de forma de onda a veces se usa para la cancelación de audio u para obtener la diferencia entre dos formas de onda. Sin embargo, en el contexto del aumento de datos de audio, esta transformación puede ser útil al capacitar a los modelos de aprendizaje automático con consumo de fase.

Cambio

Agregado en v0.5.0

Cambiar el audio hacia adelante o hacia atrás, con o sin flujo

Shufflechannels

Agregado en v0.6.0

Dada la entrada de audio multicanal (por ejemplo, estéreo), baraja los canales, por ejemplo, para que la izquierda pueda volverse a la derecha y viceversa. Esta transformación puede ayudar a combatir el sesgo posicional en modelos de aprendizaje automático que ingresan formas de onda multicanal.

Si el audio de entrada es mono, esta transformación no hace nada excepto emitir una advertencia.

Inversión en el tiempo

Agregado en v0.10.0

Reverse (invertir) el audio a lo largo del eje de tiempo similar al flip aleatorio de una imagen en el dominio visual. Esto puede ser relevante en el contexto de la clasificación de audio. Se aplicó con éxito en el documento AudioClip: extendiendo el clip a imagen, texto y audio

Colegio de cambios

Inédito

Agregado

Agregar nuevas transformaciones: Mix , Padding , RandomCrop y SpliceOut

[V0.11.1]-2024-02-07

Cambió

Agregue soporte para la frecuencia de corte constante en LowPassFilter y HighPassFilter
Agregar soporte para min_f_decay == max_f_decay en AddColoredNoise
Bump Torchaudio Dependence de> = 0.7.0 a> = 0.9.0

Fijado

Arreglar sugerencias de tipo inexacta en Shift
Eliminar set_backend para evitar UserWarning de Torchaudio

[V0.11.0]-2022-06-29

Agregado

Agregar nueva transformación: Identity
Agregue API para procesar objetivos junto con entradas. Algunas transformaciones ya admiten experimentalmente esta característica.

Cambió

Agregue el tipo de salida ObjectDict como alternativa a torch.Tensor . Esta alternativa es la opción por ahora (por compatibilidad con hacia atrás), pero tenga en cuenta que el tipo de salida anterior ( torch.Tensor ) está en desuso y el soporte se eliminará en una versión futura.
Permitir especificar una ruta de archivo, una ruta de carpeta, una lista de archivos o una lista de carpetas para AddBackgroundNoise y ApplyImpulseResponse
Requerir una versión más nueva de torch-pitch-shift para garantizar el soporte de Torchaudio 0.11 en PitchShift

Fijado

Se corrigió un error donde BandPassFilter no funcionó en GPU

[V0.10.1]-2022-03-24

Agregado

Agregar soporte para min snr == max snr en AddBackgroundNoise
Agregar soporte para Librosa 0.9.0

Fijado

Se corrigió un error donde los fragmentos de audio cargados a veces se vuelven a muestrear a una longitud incompatible en AddBackgroundNoise

[V0.10.0]-2022-02-11

Agregado

Implementar OneOf y SomeOf para aplicar uno o más de un conjunto dado de transformaciones
Implementar nuevas transformaciones: BandStopFilter y TimeInversion

Cambió

Ponga ir_paths en transform_Parameters en ApplyImpulseResponse por lo que es posible inspeccionar qué respuestas de impulso se usaron. Esto también le da freeze_parameters() el comportamiento esperado.

Fijado

Se corrigió un error donde el ancho de banda real era el doble de lo esperado en BandPassFilter . Los valores predeterminados se han actualizado en consecuencia. Si previamente estaba especificando min_bandwidth_fraction y/o max_bandwidth_fraction , ahora necesita duplicar esos números para obtener el mismo comportamiento que antes.

[V0.9.1]-2021-12-20

Agregado

Oficialmente marcar python> = 3.9 según lo compatible

[V0.9.0]-2021-10-11

Agregado

Agregar parámetro compensate_for_propagation_delay en ApplyImpulseResponse
Implementar BandPassFilter
Implementar PitchShift

Remoto

Se ha eliminado el soporte para Torchaudio <= 0.6

[V0.8.0]-2021-06-15

Agregado

Implementar HighPassFilter y LowPassFilter

Desapercibido

El soporte para Torchaudio <= 0.6 está en desuso y se eliminará en el futuro

Remoto

Se ha eliminado el soporte para Pytorch <= 1.6

[V0.7.0]-2021-04-16

Agregado

Implementar AddColoredNoise

Desapercibido

El apoyo a Pytorch <= 1.6 está en desuso y se eliminará en el futuro

[V0.6.0]-2021-02-22

Agregado

Implementar ShuffleChannels

[V0.5.1]-2020-12-18

Fijado

Se corrigió un error donde AddBackgroundNoise no funcionó en CUDA
Se corrigió un error donde no se encontraron archivos/carpetas de audio enlaces en simulación al buscar archivos de audio
Use torch.fft.rfft en lugar de la torch.rfft (en desuso en Pytorch 1.7) cuando sea posible. Como beneficio adicional, el cambio también mejora el rendimiento en ApplyImpulseResponse .

[V0.5.0]-2020-12-08

Agregado

Libere AddBackgroundNoise y ApplyImpulseResponse
Implementar Shift

Cambió

Hacer sample_rate opcional. Permitir especificar sample_rate en __init__ en lugar de forward . Esto significa que las transformaciones de Torchaudio se pueden usar en Compose ahora.

Remoto

Retire el soporte para tensores de audio 1-dimensionales y bidimensionales. Solo se admiten tensores de audio tridimensionales ahora.

Fijado

Corrige un error donde no se pudieran usar el método parameters de la subclase nn.Module
Se corrigió un error donde no se encontraron archivos con extensión de nombre de archivo en mayúsculas

[V0.4.0]-2020-11-10

Agregado

Implementar Compose para aplicar múltiples transformaciones
Implementar funciones de utilidad from_dict y from_yaml para cargar configuraciones de aumento de datos de DICT, JSON o YAML
Oficialmente apoyar la diferenciabilidad en la mayoría de las transformaciones