nnAudio download - nnAudio Quellcode Download

nnAudio

Python

Code refactoring and updating

Herunterladen

Nnaudio

Nnaudio ist eine Audio -Verarbeitungs -Toolbox, die als Backend mit Pytorch Figolational Neural Network verwendet wird. Auf diese Weise können Spektrogramme während des neuronalen Netzwerks aus Audio im Fliege generiert werden, und die Fourier-Kernel (z. B. CQT-Kerne) können trainiert werden. Kapre hat ein ähnliches Konzept, bei dem sie auch 1D -Faltungsnetzwerk verwenden, um Spektrogramme basierend auf Keras zu extrahieren.

Andere GPU -Audio -Verarbeitungstools sind Torchaudio und TF.Signal. Sie verwenden jedoch nicht den Ansatz des neuronalen Netzwerks, und daher kann die Fourier -Basis nicht geschult werden. Ab Pytorch 1.6.0 ist Torchaudio aufgrund von sox immer noch sehr schwer zu installieren. Nnaudio ist ein kompatibleres Audio -Verarbeitungsinstrument für verschiedene Betriebssysteme, da es hauptsächlich auf Pytorch Faltungs -Neuralnetzwerk beruht. Der Name von Nnaudio stammt von torch.nn

Installation

pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation

oder

pip install nnAudio==0.3.1

Dokumentation

https://kinwaicheuk.github.io/nnaudio/index.html

Vergleich mit anderen Bibliotheken

Besonderheit	Nnaudio	Torch.stft	Kapre	Torchaudio	tf.signal	Torch-Stft	Librosa
Trainierbar	✅		✅			✅
Differenzierbar	✅	✅	✅	✅	✅	✅
Lineare Frequenz STFT	✅	✅	✅	✅	✅	✅	✅
Logarithmische Frequenz STFT	✅		✅
Inverse Stft	✅	✅	✅	✅	✅	✅	✅
Griffin-lim	✅			✅	✅		✅
Mel	✅		✅	✅	✅		✅
MFCC	✅			✅	✅		✅
CQT	✅						✅
Vqt	✅						✅
Gammaton	✅
CFP ¹	✅
GPU -Unterstützung	✅	✅	✅	✅	✅	✅

✅: voll unterstützen ☑️: Entwicklung (nur in Dev -Version verfügbar): Nicht Unterstützung

¹ Kombination spektraler und zeitlicher Darstellungen zur Multipitch -Schätzung der polyphonischen Musik

Nachrichten & Changelog

Um den vollständigen ChangeLog anzuzeigen, gehen Sie bitte zu ChangeLog.md

Version 0.3.1 (24. Dezember 2021):

VQT -Funktion #113 hinzugefügt

Version 0.3.0 (19. November 2021):

Benennung des Moduls geändert. nnAudio.Spectrogram wird in den zukünftigen Releases durch nnAudio.features ersetzt. Derzeit sind verschiedene Spektrogrammtypen über beide Methoden zugänglich.

Wie man nnaudio zitiert

Das Papier für Nnaudio ist auf IEEE -Zugang durchschnittlich

KW Cheuk, H. Anderson, K. Agres und D. Herremans, "Naudio: Ein GPU-Audio-zu-Spektrogramm-Conversion-Toolbox im Fliege, unter Verwendung von 1D-Faltungsnetzwerken" in IEEE Access, vol. 8, S. 161981-162003, 2020, doi: 10.1109/access.2020.3019084.

Bibtex

@ARTICLE{9174990, author={KW {Cheuk} and H. {Anderson} and K. {Agres} and D. {Herremans}}, journal={IEEE Access}, title={nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks}, Jahr = {2020}, Volume = {8}, Nummer = {}, pages = {161981-162003}, doi = {10.1109/access.2020.3019084}}

Fordern Sie Beiträge

Nnaudio ist ein schnell wachsendes Paket. Mit der zunehmenden Anzahl von Feature -Anfragen begrüßen wir alle, die mit der digitalen Signalverarbeitung und dem neuronalen Netzwerk vertraut sind, um zu Naudio beizutragen. Die aktuelle Liste der anstehenden Funktionen umfasst:

Invertierbare Konstante Q -Transformation (CQT)

(Schnelle Tipps für den Unit -Test: cd im Installationsordner und geben Sie dann pytest ein. Sie benötigen mindestens 1931 MIB -GPU -Speicher, um alle Unit -Tests zu bestehen.)

Alternativ können Sie auch einen Beitrag leisten von:

Einen besseren Demonstrationscode oder Tutorial erstellen

Abhängigkeiten

Numpy> = 1.14.5

Scipy> = 1.2.0

Pytorch> = 1,6.0 (Griffin-lim erst nach 1.6.0 verfügbar)

Python> = 3,6

librosa = 0,7.0 (theoretisch nnaudio hängt von librosa ab. Wir müssen jedoch nur eine einzelne Funktion mel von librosa.filters verwenden. Um Benutzer Probleme vor der Installation von Librosa für diese einzelne Funktion zu speichern, kann ich nur die Kopie des Stücks von Funktionen in meinem mel kopieren, damit Naudio ohne die Bedürfnisse der LIBROSA installiert werden kann.)