Téléchargement torch audiomentations - torch audiomentations CODE SOURCE Téléchargement

torch audiomentations

Python

v0.11.1

Télécharger

Augmentation des données audio dans Pytorch. Inspiré par des audiomentations.

Prend en charge le CPU et le GPU (CUDA) - La vitesse est une priorité
Prend en charge les lots d'audio multicanal (ou mono)
Transformes Extend nn.Module , afin qu'ils puissent être intégrés dans le cadre d'un modèle de réseau neuronal pytorch
La plupart des transformations sont différenciables
Trois modes: per_batch , per_example et per_channel
Compatibilité multiplateforme
Licence MIT permissive
Viser une couverture de test élevée

Installation

pip install torch-audiomentations

Exemple d'utilisation

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

Problèmes connus

Le traitement des données cibles est toujours dans un état expérimental (# 3). Solution de contournement: utilisez freeze_parameters et unfreeze_parameters pour l'instant si les données cibles sont audio avec la même forme que l'entrée.
L'utilisation des audiomentations de torch dans un contexte multiprocesseur peut conduire à des fuites de mémoire (# 132). Solution: si l'utilisation des audiomentations de torch dans un contexte multiprocesseur, il fonctionnera probablement mieux d'exécuter les transformations sur CPU.
Le multi-GPU / DDP n'est pas officiellement pris en charge (# 136). L'auteur n'a pas de configuration multi-GPU pour tester et résoudre ce problème. Contactez-nous si vous souhaitez donner du matériel pour cela. Solution: exécutez les transformations sur un seul GPU.
PitchShift ne prend pas en charge les petits changements de hauteur, en particulier pour les faibles taux d'échantillonnage (# 151). Solution: Si vous avez besoin de petits décalages de hauteur appliqués à de faibles fréquences d'échantillonnage, utilisez un pashish de pitch dans des audiomentations ou du décalage de torche directement sans la fonction de calcul des cibles de décalage de hauteur efficaces.

Contribuer

Les contributeurs sont les bienvenus! Rejoignez le mou de l'astéroïde pour commencer à torch-audiomentations avec nous.

Motivation: vitesse

Nous ne voulons pas que l'augmentation des données soit un goulot d'étranglement dans la vitesse de formation du modèle. Voici une comparaison du temps nécessaire pour exécuter 1D Convolution:

Convolution des temps d'exécution

Remarque: Toutes les transformations n'ont pas une accélération aussi impressionnante par rapport au CPU. En général, l'exécution d'augmentation des données audio sur GPU n'est pas toujours la meilleure option. Pour plus d'informations, consultez cet article: https://iver56.github.io/audiomentations/guides/cpu_vs_gpu/

État actuel

Les audiomentations des torch sont à un stade de développement précoce, donc les API sont sujettes à un changement.

La forme d'onde se transforme

Chaque transformée a mode , p et p_mode - les paramètres qui décident comment l'augmentation est effectuée.

mode décide comment la randomisation de l'augmentation est regroupée et appliquée.
p décide de la probabilité de marche / désactivation d'appliquer l'augmentation.
p_mode décide comment l'entrée / désactivation de l'augmentation est appliquée.

Cette visualisation montre comment différentes combinaisons de mode et p_mode effectueraient une augmentation.

Explication du mode, P et P_Mode

Addbackgroundnoise

Ajouté dans V0.5.0

Ajoutez un bruit de fond à l'audio d'entrée.

AddcoloredNoise

Ajouté dans V0.7.0

Ajouter le bruit coloré à l'audio d'entrée.

Appliquer une impu-.

Ajouté dans V0.5.0

Convolutionz l'audio donné avec des réponses impulsives.

Bandspassfilter

Ajouté dans V0.9.0

Appliquez un filtrage de passe-bande à l'audio d'entrée.

Bandoue

Ajouté dans v0.10.0

Appliquez un filtrage de bande d'arrêt de bande à l'audio d'entrée. Également connu sous le nom de filtre Notch.

Gagner

Ajouté dans V0.1.0

Multipliez l'audio par un facteur d'amplitude aléatoire pour réduire ou augmenter le volume. Cette technique peut aider un modèle à devenir quelque peu invariant au gain global de l'audio d'entrée.

AVERTISSEMENT: Cette transformation peut retourner des échantillons à l'extérieur de la gamme [-1, 1], ce qui peut entraîner une déformation ou envelopper la distorsion, selon ce que vous faites avec l'audio à un stade ultérieur. Voir aussi https://en.wikipedia.org/wiki/clipping_(audio)#digital_clipping

High passfilter

Ajouté dans V0.8.0

Appliquez un filtrage passe-haut à l'audio d'entrée.

Identité

Ajouté dans v0.11.0

Cette transformation renvoie l'entrée inchangée. Il peut être utilisé pour simplifier le code dans les cas où l'augmentation des données doit être désactivée.

LowPassfilter

Ajouté dans V0.8.0

Appliquez un filtrage passe-bas à l'audio d'entrée.

Normalisation de pointe

Ajouté dans V0.2.0

Appliquez une quantité constante de gain, de sorte que le niveau de signal le plus élevé présent dans chaque extrait audio du lot devient 0 DBFS, c'est-à-dire le niveau le plus fort autorisé si tous les échantillons doivent être compris entre -1 et 1.

Cette transformation a un mode alternatif (appliquer_to = "only_too_loud_sounds") où il ne s'applique qu'aux extraits audio qui ont des valeurs extrêmes en dehors de la plage [-1, 1]. Ceci est utile pour éviter l'écrasement numérique dans l'audio qui est trop fort, tout en laissant un autre audio intact.

Pitchage

Ajouté dans V0.9.0

Le shift de pitch sonne vers le haut ou vers le bas sans changer le tempo.

Polarity Inversion

Ajouté dans V0.1.0

Retournez les échantillons audio à l'envers, inversant leur polarité. En d'autres termes, multiplier la forme d'onde par -1, donc les valeurs négatives deviennent positives, et vice versa. Le résultat sonnera de la même manière par rapport à l'original lorsqu'il est joué de manière isolée. Cependant, lorsqu'il est mélangé avec d'autres sources audio, le résultat peut être différent. Cette technique d'inversion de forme d'onde est parfois utilisée pour l'annulation audio ou l'obtention de la différence entre deux formes d'onde. Cependant, dans le contexte de l'augmentation des données audio, cette transformation peut être utile lors de la formation des modèles d'apprentissage automatique conscients de la phase.

Changement

Ajouté dans V0.5.0

Déplacer les avantages audio ou vers l'arrière, avec ou sans renversement

Fusillades

Ajouté dans v0.6.0

Compte tenu de l'entrée audio multicanal (par exemple stéréo), mélanger les canaux, par exemple, la gauche peut devenir à droite et vice versa. Cette transformation peut aider à lutter contre les biais de position dans les modèles d'apprentissage automatique qui saisissent les formes d'onde multicanaux.

Si l'audio d'entrée est mono, cette transformation ne fait rien d'autre que d'émettre un avertissement.

Inversion de temps

Ajouté dans v0.10.0

Inverser (inverser) L'audio le long de l'axe temporel similaire à la flip aléatoire d'une image dans le domaine visuel. Cela peut être pertinent dans le contexte de la classification audio. Il a été appliqué avec succès dans le papier audioclip: étendant le clip à l'image, au texte et audio

Changelog

Inédit

Ajouté

Ajouter de nouvelles transformations: Mix , Padding , RandomCrop et SpliceOut

[v0.11.1] - 2024-02-07

Modifié

Ajouter la prise en charge de la fréquence de coupure constante dans LowPassFilter et HighPassFilter
Ajoutez la prise en charge de min_f_decay == max_f_decay dans AddColoredNoise
Dépendance de la torch audio de bump de> = 0,7,0 à> = 0,9.0

Fixé

Correction des conseils de type inexact dans Shift
Supprimer set_backend pour éviter UserWarning de Torchaudio

[v0.11.0] - 2022-06-29

Ajouté

Ajouter une nouvelle transformation: Identity
Ajoutez une API pour le traitement des cibles aux côtés des entrées. Certaines transformes soutiennent déjà expérimentalement cette fonctionnalité.

Modifié

Ajoutez un type de sortie ObjectDict comme alternative à torch.Tensor . Cette alternative est opt-in pour l'instant (pour la compatibilité vers l'arrière), mais notez que l'ancien type de sortie ( torch.Tensor ) est obsolète et que la prise en charge sera supprimée dans une future version.
Autoriser la spécification d'un chemin de fichier, d'un chemin de dossier, d'une liste de fichiers ou d'une liste de dossiers pour AddBackgroundNoise et ApplyImpulseResponse
Nécessitent une version plus récente de torch-pitch-shift pour assurer la prise en charge de Torchaudio 0.11 dans PitchShift

Fixé

Correction d'un bug où BandPassFilter n'a pas fonctionné sur GPU

[v0.10.1] - 2022-03-24

Ajouté

Ajouter la prise en charge de min snr == max snr dans AddBackgroundNoise
Ajouter la prise en charge de Librosa 0.9.0

Fixé

Correction d'un bogue où les extraits audio chargés étaient parfois rééchantillonnés à une longueur incompatible dans AddBackgroundNoise

[V0.10.0] - 2022-02-11

Ajouté

Implémenter OneOf et SomeOf pour appliquer un ou plusieurs d'un ensemble donné de transformations
Implémentez les nouvelles transformations: BandStopFilter et TimeInversion

Modifié

Mettez ir_paths dans Transform_Parameters dans ApplyImpulseResponse afin qu'il soit possible d'inspecter quelles réponses impulsives ont été utilisées. Cela donne également freeze_parameters() le comportement attendu.

Fixé

Correction d'un bug où la bande passante réelle était deux fois plus grande que prévu dans BandPassFilter . Les valeurs par défaut ont été mises à jour en conséquence. Si vous spécifiiez auparavant min_bandwidth_fraction et / ou max_bandwidth_fraction , vous devez maintenant doubler ces nombres pour obtenir le même comportement qu'auparavant.

[V0.9.1] - 2021-12-20

Ajouté

Mark Mark Python> = 3,9 comme pris en charge

[V0.9.0] - 2021-10-11

Ajouté

Ajouter le paramètre compensate_for_propagation_delay dans ApplyImpulseResponse
Implémenter BandPassFilter
Implémenter PitchShift

Supprimé

La prise en charge de Torchaudio <= 0,6 a été supprimée

[V0.8.0] - 2021-06-15

Ajouté

Implémenter HighPassFilter et LowPassFilter

Déprécié

La prise en charge de Torchaudio <= 0,6 est obsolète et sera supprimée à l'avenir

Supprimé

La prise en charge de Pytorch <= 1,6 a été supprimée

[v0.7.0] - 2021-04-16

Ajouté

Implémenter AddColoredNoise

Déprécié

La prise en charge de Pytorch <= 1,6 est obsolète et sera supprimée à l'avenir

[v0.6.0] - 2021-02-22

Ajouté

Implémenter ShuffleChannels

[V0.5.1] - 2020-12-18

Fixé

Correction d'un bug où AddBackgroundNoise n'a pas fonctionné sur Cuda
Correction d'un bogue où les fichiers / dossiers audio à liaison systémique n'ont pas été trouvés lors de la recherche de fichiers audio
Utilisez Torch.fft.rfft au lieu du torch.rfft (déprécié dans Pytorch 1.7) lorsque cela est possible. En prime, le changement améliore également les performances de ApplyImpulseResponse .

[V0.5.0] - 2020-12-08

Ajouté

Libérez AddBackgroundNoise et ApplyImpulseResponse
Mettre en œuvre Shift

Modifié

Faire sample_rate en option. Autoriser la spécification de sample_rate dans __init__ au lieu de forward . Cela signifie que les transformes de torch audio peuvent être utilisées dans Compose maintenant.

Supprimé

Retirez le support pour les tenseurs audio en 1 dimension et bidimensionnels. Seuls les tenseurs audio tridimensionnels sont maintenant pris en charge.

Fixé

Correction d'un bogue où l'on ne pouvait pas utiliser la méthode parameters de la sous-classe nn.Module
Correction d'un bogue où les fichiers avec extension de nom de fichier en majuscules n'ont pas été trouvés

[V0.4.0] - 2020-11-10

Ajouté

Implémentez Compose pour appliquer plusieurs transformations
Implémentez les fonctions d'utilité from_dict et from_yaml pour charger des configurations d'augmentation de données de dict, json ou yaml
Soutenir officiellement la différenciation dans la plupart des transformations