Nnaudioは、Pytorch Convolutional Neural Networkをバックエンドとして使用するオーディオ処理ツールボックスです。そうすることで、ニューラルネットワークトレーニング中にフライでオーディオからスペクトログラムを生成でき、フーリエカーネル(またはCQTカーネルなど)をトレーニングできます。 Kapreには、1D畳み込みニューラルネットワークを使用してKerasに基づいたスペクトログラムを抽出する同様の概念があります。
他のGPUオーディオ処理ツールは、TorchaudioおよびTF.Signalです。しかし、彼らはニューラルネットワークアプローチを使用していないため、フーリエベースを訓練することはできません。 Pytorch 1.6.0の時点で、TorchaudioはsoxのためにWindows環境の下にインストールするのが非常に困難です。 Nnaudioは、主にPytorch畳み込みニューラルネットワークに依存しているため、さまざまなオペレーティングシステム全体でより互換性のあるオーディオ処理ツールです。 Nnaudioの名前はtorch.nnから来ています
pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation
または
pip install nnAudio==0.3.1
https://kinwaicheuk.github.io/nnaudio/index.html
| 特徴 | Nnaudio | torch.stft | カプレ | トーチャウディオ | tf.signal | トーチstft | リブーザ |
|---|---|---|---|---|---|---|---|
| 訓練可能 | ✅ | ✅ | ✅ | ||||
| 微分可能 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| 線形周波数STFT | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 対数周波数STFT | ✅ | ✅ | |||||
| 逆stft | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| グリフィン・リム | ✅ | ✅ | ✅ | ✅ | |||
| メル | ✅ | ✅ | ✅ | ✅ | ✅ | ||
| MFCC | ✅ | ✅ | ✅ | ✅ | |||
| CQT | ✅ | ✅ | |||||
| VQT | ✅ | ✅ | |||||
| ガマトン | ✅ | ||||||
| CFP 1 | ✅ | ||||||
| GPUサポート | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
✅:完全なサポート☑️:開発(開発バージョンでのみ利用可能):サポートではありません
1ポリフォニック音楽のマルチピッチ推定のためのスペクトル表現と時間表現の組み合わせ
完全なChangelogを表示するには、changelog.mdにアクセスしてください
バージョン0.3.1 (2021年12月24日):
バージョン0.3.0 (2021年11月19日):
nnAudio.Spectrogram 、将来のリリースでnnAudio.featuresに置き換えられます。現在、さまざまなスペクトログラムタイプが両方の方法でアクセスできます。 Nnaudioの論文は、IEEEアクセスで利用可能です
KW Cheuk、H。Anderson、K。Agres、D。Herremans、「Nnaudio:1D畳み込みニューラルネットワークを使用したオンザフライGPUオーディオ変換ツールボックス」、IEEE Access、vol。 8、pp。161981-162003、2020、doi:10.1109/Access.2020.3019084。
@article {9174990、著者= {kw {cheuk} and H. {anderson} {agres} and D. {herremans}}、journal = {ieee access}、title = {nnaudio:an-on-fly gpu audio to in-fly gpu audion to spectrograms conversion toolboxを使用した1d contrulional contoveroversoclograks to bedulional nevolutionbolyを使用したnnaudio Volume = {8}、number = {}、pages = {161981-162003}、doi = {10.1109/access.2020.3019084}}}
Nnaudioは急成長しているパッケージです。機能リクエストの数が増えているため、Nnaudioに貢献するためにデジタル信号処理とニューラルネットワークに精通している人を歓迎します。保留中の機能の現在のリストには次のものが含まれます。
(ユニットテストのためのクイックヒント:内部インストールフォルダー内のcd 、次にpytestを入力します。すべてのユニットテストに合格するには、少なくとも1931 MIB GPUメモリが必要です)
または、次のように貢献することもできます。
numpy> = 1.14.5
scipy> = 1.2.0
pytorch> = 1.6.0(1.6.0以降にのみ利用可能)
Python> = 3.6
Librosa = 0.7.0(理論的にはNnaudioはLibrosaに依存します。ただし、 librosa.filtersから単一の関数mel mel使用するだけです。
カプレ
トーチstft