nnAudioダウンロードnnAudioソースコードのダウンロード

nnAudio

パイソン

Code refactoring and updating

ダウンロード

Nnaudio

Nnaudioは、Pytorch Convolutional Neural Networkをバックエンドとして使用するオーディオ処理ツールボックスです。そうすることで、ニューラルネットワークトレーニング中にフライでオーディオからスペクトログラムを生成でき、フーリエカーネル（またはCQTカーネルなど）をトレーニングできます。 Kapreには、1D畳み込みニューラルネットワークを使用してKerasに基づいたスペクトログラムを抽出する同様の概念があります。

他のGPUオーディオ処理ツールは、TorchaudioおよびTF.Signalです。しかし、彼らはニューラルネットワークアプローチを使用していないため、フーリエベースを訓練することはできません。 Pytorch 1.6.0の時点で、TorchaudioはsoxのためにWindows環境の下にインストールするのが非常に困難です。 Nnaudioは、主にPytorch畳み込みニューラルネットワークに依存しているため、さまざまなオペレーティングシステム全体でより互換性のあるオーディオ処理ツールです。 Nnaudioの名前はtorch.nnから来ています

インストール

pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation

または

pip install nnAudio==0.3.1

ドキュメント

https://kinwaicheuk.github.io/nnaudio/index.html

他のライブラリとの比較

特徴	Nnaudio	torch.stft	カプレ	トーチャウディオ	tf.signal	トーチstft	リブーザ
訓練可能	✅		✅			✅
微分可能	✅	✅	✅	✅	✅	✅
線形周波数STFT	✅	✅	✅	✅	✅	✅	✅
対数周波数STFT	✅		✅
逆stft	✅	✅	✅	✅	✅	✅	✅
グリフィン・リム	✅			✅	✅		✅
メル	✅		✅	✅	✅		✅
MFCC	✅			✅	✅		✅
CQT	✅						✅
VQT	✅						✅
ガマトン	✅
CFP ¹	✅
GPUサポート	✅	✅	✅	✅	✅	✅

✅：完全なサポート☑️：開発（開発バージョンでのみ利用可能）：サポートではありません

¹ポリフォニック音楽のマルチピッチ推定のためのスペクトル表現と時間表現の組み合わせ

News＆Changelog

完全なChangelogを表示するには、changelog.mdにアクセスしてください

バージョン0.3.1 （2021年12月24日）：

VQT機能＃113を追加しました

バージョン0.3.0 （2021年11月19日）：

モジュールの命名を変更しました。 nnAudio.Spectrogram 、将来のリリースでnnAudio.featuresに置き換えられます。現在、さまざまなスペクトログラムタイプが両方の方法でアクセスできます。

Nnaudioを引用する方法

Nnaudioの論文は、IEEEアクセスで利用可能です

KW Cheuk、H。Anderson、K。Agres、D。Herremans、「Nnaudio：1D畳み込みニューラルネットワークを使用したオンザフライGPUオーディオ変換ツールボックス」、IEEE Access、vol。 8、pp。161981-162003、2020、doi：10.1109/Access.2020.3019084。

bibtex

@article {9174990、著者= {kw {cheuk} and H. {anderson} {agres} and D. {herremans}}、journal = {ieee access}、title = {nnaudio：an-on-fly gpu audio to in-fly gpu audion to spectrograms conversion toolboxを使用した1d contrulional contoveroversoclograks to bedulional nevolutionbolyを使用したnnaudio Volume = {8}、number = {}、pages = {161981-162003}、doi = {10.1109/access.2020.3019084}}}