torch audiomentationsダウンロード - torch audiomentationsソースコードのダウンロード

torch audiomentations

パイソン

v0.11.1

ダウンロード

Pytorchのオーディオデータ増強。聴覚に触発されました。

CPUとGPU（CUDA）をサポート - 速度が優先事項です
マルチチャネル（またはモノ）オーディオのバッチをサポートします
変換はnn.Moduleを拡張するため、Pytorch Neural Networkモデルの一部として統合できます
ほとんどの変換は微分可能です
3つのモード： per_batch 、 per_example 、 per_channel
クロスプラットフォームの互換性
寛容なMITライセンス
高いテストカバレッジを目指しています

設定

pip install torch-audiomentations

使用例

 import torch
from torch_audiomentations import Compose , Gain , PolarityInversion


# Initialize augmentation callable
apply_augmentation = Compose (
    transforms = [
        Gain (
            min_gain_in_db = - 15.0 ,
            max_gain_in_db = 5.0 ,
            p = 0.5 ,
        ),
        PolarityInversion ( p = 0.5 )
    ]
)

torch_device = torch . device ( "cuda" if torch . cuda . is_available () else "cpu" )

# Make an example tensor with white noise.
# This tensor represents 8 audio snippets with 2 channels (stereo) and 2 s of 16 kHz audio.
audio_samples = torch . rand ( size = ( 8 , 2 , 32000 ), dtype = torch . float32 , device = torch_device ) - 0.5

# Apply augmentation. This varies the gain and polarity of (some of)
# the audio snippets in the batch independently.
perturbed_audio_samples = apply_augmentation ( audio_samples , sample_rate = 16000 )

既知の問題

ターゲットデータ処理はまだ実験状態です（＃3）。回避策：ターゲットデータが入力と同じ形状のオーディオである場合、 freeze_parametersとunfreeze_parameters使用してください。
マルチプロセスコンテキストでトーチオーディオメントを使用すると、メモリリークが発生する可能性があります（＃132）。回避策：マルチプロセッシングコンテキストでトーチオーディオメントを使用する場合、おそらくCPUで変換を実行する方がうまく機能します。
Multi-GPU / DDPは正式にサポートされていません（＃136）。著者は、これをテストおよび修正するためのマルチGPUセットアップを持っていません。このためにいくつかのハードウェアを寄付したい場合は、連絡してください。回避策：代わりに単一のGPUで変換を実行します。
PitchShift 、特に低いサンプルレートの場合、小さなピッチシフトをサポートしていません（＃151）。回避策：低いサンプルレートに小さなピッチシフトを適用する必要がある場合は、効率的なピッチシフトターゲットを計算するための関数なしで、オーディオメントまたはトーチピッチシフトでピッチシフトを直接使用します。

貢献する

貢献者を歓迎します！小惑星のスラックに参加して、 torch-audiomentationsについて話し合い始めてください。

モチベーション：スピード

データ増強がモデルトレーニング速度のボトルネックになることは望ましくありません。これは、1D畳み込みを実行するのにかかる時間の比較です。

実行時間をコンバルブします

注：すべての変換がCPUと比較してこの印象的なスピードアップを持っているわけではありません。一般に、GPUでオーディオデータ増強を実行することが必ずしも最良の選択肢ではありません。詳細については、この記事を参照してください：https：//iver56.github.io/audiomentations/guides/cpu_vs_gpu/

現在の状態

トーチ監視は初期の開発段階にあるため、APIは変更される可能性があります。

波形変換

すべての変換には、 mode 、 p 、およびp_modeがあります。これは、増強の実行方法を決定するパラメーターです。

mode 、増強のランダム化がどのようにグループ化され、適用されるかを決定します。
p 、増強を適用するオン/オフ確率を決定します。
p_mode 、増強のオン/オフがどのように適用されるかを決定します。

この視覚化はmodeとp_modeの異なる組み合わせが拡張を実行する方法を示しています。

モード、PおよびP_MODEの説明

アドバックグラウンドノイズ

v0.5.0に追加されました

入力オーディオに背景ノイズを追加します。

addcoloredNoise

v0.7.0に追加されました

入力オーディオに色付きノイズを追加します。

ApplyImpulSeresponse

v0.5.0に追加されました

与えられたオーディオをインパルス応答で調整します。

BandPassFilter

v0.9.0に追加されました

入力オーディオにバンドパスフィルタリングを適用します。

BandStopFilter

v0.10.0に追加されました

入力オーディオにバンドストップフィルタリングを適用します。 Notchフィルターとも呼ばれます。

得

v0.1.0に追加されました

音量を削減または増加させるために、オーディオにランダム振幅係数を掛けます。この手法は、入力オーディオの全体的なゲインにモデルがやや不変になるのに役立ちます。

警告：この変換は、[-1、1]範囲の外側のサンプルを返すことができます。これにより、後の段階でオーディオを使用することに応じて、クリッピングまたはラップの歪みにつながる可能性があります。 https://en.wikipedia.org/wiki/clipping_(Audio)#digital_clippingも参照してください

HighPassFilter

v0.8.0に追加されました

入力オーディオにハイパスフィルタリングを適用します。

身元

v0.11.0に追加されました

この変換は、変更されていない入力を返します。データの増強を無効にする必要がある場合に、コードを簡素化するために使用できます。

ローパスフィルター

v0.8.0に追加されました

入力オーディオにローパスフィルタリングを適用します。

ピークノーマル化

v0.2.0に追加されました

一定量のゲインを適用して、バッチ内の各オーディオスニペットに存在する最高の信号レベルが0 dBFになります。つまり、すべてのサンプルが-1〜1の間でなければならない場合は、最大レベルが許容されます。

この変換には、[-1、1]範囲外に極端な値を持つオーディオスニペットのみに適用される代替モード（Apply_to = "only_too_loud_sounds"）があります。これは、他のオーディオのままにしている間、音声が大きすぎるオーディオのデジタルクリッピングを回避するのに役立ちます。

ピッチシフト

v0.9.0に追加されました

ピッチシフトは、テンポを変更せずに上下に鳴ります。

極性インバージョン

v0.1.0に追加されました

オーディオサンプルを逆さまにし、極性を逆転させます。言い換えれば、波形に-1を掛けると、負の値が正しくなり、逆も同様です。結果は、孤立して再生されたときに元のものと比較して同じように聞こえます。ただし、他のオーディオソースと混合すると、結果は異なる場合があります。この波形反転手法は、オーディオキャンセルまたは2つの波形の差を取得するために使用されることがあります。ただし、オーディオデータの増強のコンテキストでは、この変換は、段階認識機械学習モデルをトレーニングする場合に役立ちます。

シフト

v0.5.0に追加されました

ロールオーバーの有無にかかわらず、オーディオを前方または後方にシフトします

シャッフルチャネル

v0.6.0に追加されました

マルチチャネルオーディオ入力（ステレオなど）を考えると、チャンネルをシャッフルします。この変換は、マルチチャネル波形を入力する機械学習モデルのポジショナルバイアスとの戦闘に役立ちます。

入力オーディオがモノである場合、この変換は警告を発すること以外は何もしません。

タイムインバージョン

v0.10.0に追加されました

視覚ドメイン内の画像のランダムフリップと同様の時間軸に沿ったオーディオを逆（反転）します。これは、オーディオ分類のコンテキストで関連することができます。それは紙のAudioClipに正常に適用されました：画像、テキスト、オーディオにクリップを拡張します

Changelog

未発表

追加した

新しい変換を追加： Mix 、 Padding 、 RandomCrop 、 SpliceOut

[v0.11.1] -2024-02-07

変更されました

LowPassFilterとHighPassFilterの一定のカットオフ周波数をサポートする
min_f_decayのサポートを追加== AddColoredNoiseにmax_f_decayを追加します
> = 0.7.0から> = 0.9.0からのバンプトルカウディオ依存関係

修理済み

Shiftで不正確なタイプのヒントを修正します
set_backendを削除して、TorchaudioからUserWarningを避けます

[V0.11.0] -2022-06-29

追加した

新しい変換を追加： Identity
入力と一緒にターゲットを処理するためにAPIを追加します。いくつかの変換は、この機能をすでに実験的にサポートしています。

変更されました

torch.Tensorの代替としてObjectDict出力タイプを追加します。この代替案は現在のオプトインです（後方互換性のため）ですが、古い出力タイプ（ torch.Tensor ）は非推奨であり、将来のバージョンでサポートが削除されることに注意してください。
ファイルパス、フォルダーパス、ファイルのリスト、またはAddBackgroundNoiseおよびApplyImpulseResponseへのフォルダーのリストを指定することを許可します
PitchShiftでTorchaudio 0.11のサポートを確保するためにtorch-pitch-shiftの新しいバージョンが必要です

修理済み

BandPassFilterがGPUで動作しなかったバグを修正します

[v0.10.1] -2022-03-24

追加した

min snr == max snrのサポートをAddBackgroundNoiseに追加する
Librosa 0.9.0のサポートを追加します

修理済み

搭載されたオーディオスニペットがAddBackgroundNoiseで互換性のない長さに再サンプリングされることがあるバグを修正します

[V0.10.0] -2022-02-11

追加した

特定の変換のセットを1つ以上適用するためにOneOf SomeOfを実装します
新しい変換を実装： BandStopFilterとTimeInversion

変更されました

ir_paths transform_parametersにApplyImpulseResponseに入れて、どのインパルス応答が使用されたかを調べることができるようにします。これにより、 freeze_parameters()に予想される動作が得られます。

修理済み

実際の帯域幅がBandPassFilterで予想される2倍の大きさのバグを修正します。デフォルト値はそれに応じて更新されています。以前にmin_bandwidth_fractionおよび/またはmax_bandwidth_fractionを指定していた場合、以前と同じ動作を取得するには、それらの数値を2倍にする必要があります。

[V0.9.1] -2021-12-20

追加した

正式にマークPython> = 3.9サポートされています

[V0.9.0] -2021-10-11

追加した

ApplyImpulseResponseにパラメーターcompensate_for_propagation_delayを追加します
BandPassFilterを実装します
PitchShiftを実装します

削除

Torchaudio <= 0.6のサポートが削除されました

[V0.8.0] -2021-06-15

追加した

HighPassFilterとLowPassFilterを実装します

非推奨

Torchaudioのサポート<= 0.6は非推奨であり、将来削除されます

削除

Pytorch <= 1.6のサポートが削除されました

[V0.7.0] -2021-04-16

追加した

AddColoredNoiseを実装します

非推奨

pytorchのサポート<= 1.6は非推奨であり、将来削除されます

[V0.6.0] -2021-02-22

追加した

ShuffleChannelsを実装します

[V0.5.1] -2020-12-18

修理済み

AddBackgroundNoiseがCUDAで動作しなかったバグを修正する
オーディオファイルを探しているときにシンプルなオーディオファイル/フォルダーが見つからなかったバグを修正します
可能であれば、torch.rfft（pytorch 1.7で非推奨）の代わりにtorch.fft.rfftを使用します。ボーナスとして、この変更により、 ApplyImpulseResponseのパフォーマンスも向上します。