Nnaudio ist eine Audio -Verarbeitungs -Toolbox, die als Backend mit Pytorch Figolational Neural Network verwendet wird. Auf diese Weise können Spektrogramme während des neuronalen Netzwerks aus Audio im Fliege generiert werden, und die Fourier-Kernel (z. B. CQT-Kerne) können trainiert werden. Kapre hat ein ähnliches Konzept, bei dem sie auch 1D -Faltungsnetzwerk verwenden, um Spektrogramme basierend auf Keras zu extrahieren.
Andere GPU -Audio -Verarbeitungstools sind Torchaudio und TF.Signal. Sie verwenden jedoch nicht den Ansatz des neuronalen Netzwerks, und daher kann die Fourier -Basis nicht geschult werden. Ab Pytorch 1.6.0 ist Torchaudio aufgrund von sox immer noch sehr schwer zu installieren. Nnaudio ist ein kompatibleres Audio -Verarbeitungsinstrument für verschiedene Betriebssysteme, da es hauptsächlich auf Pytorch Faltungs -Neuralnetzwerk beruht. Der Name von Nnaudio stammt von torch.nn
pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation
oder
pip install nnAudio==0.3.1
https://kinwaicheuk.github.io/nnaudio/index.html
| Besonderheit | Nnaudio | Torch.stft | Kapre | Torchaudio | tf.signal | Torch-Stft | Librosa |
|---|---|---|---|---|---|---|---|
| Trainierbar | ✅ | ✅ | ✅ | ||||
| Differenzierbar | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| Lineare Frequenz STFT | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Logarithmische Frequenz STFT | ✅ | ✅ | |||||
| Inverse Stft | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Griffin-lim | ✅ | ✅ | ✅ | ✅ | |||
| Mel | ✅ | ✅ | ✅ | ✅ | ✅ | ||
| MFCC | ✅ | ✅ | ✅ | ✅ | |||
| CQT | ✅ | ✅ | |||||
| Vqt | ✅ | ✅ | |||||
| Gammaton | ✅ | ||||||
| CFP 1 | ✅ | ||||||
| GPU -Unterstützung | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
✅: voll unterstützen ☑️: Entwicklung (nur in Dev -Version verfügbar): Nicht Unterstützung
1 Kombination spektraler und zeitlicher Darstellungen zur Multipitch -Schätzung der polyphonischen Musik
Um den vollständigen ChangeLog anzuzeigen, gehen Sie bitte zu ChangeLog.md
Version 0.3.1 (24. Dezember 2021):
Version 0.3.0 (19. November 2021):
nnAudio.Spectrogram wird in den zukünftigen Releases durch nnAudio.features ersetzt. Derzeit sind verschiedene Spektrogrammtypen über beide Methoden zugänglich. Das Papier für Nnaudio ist auf IEEE -Zugang durchschnittlich
KW Cheuk, H. Anderson, K. Agres und D. Herremans, "Naudio: Ein GPU-Audio-zu-Spektrogramm-Conversion-Toolbox im Fliege, unter Verwendung von 1D-Faltungsnetzwerken" in IEEE Access, vol. 8, S. 161981-162003, 2020, doi: 10.1109/access.2020.3019084.
@ARTICLE{9174990, author={KW {Cheuk} and H. {Anderson} and K. {Agres} and D. {Herremans}}, journal={IEEE Access}, title={nnAudio: An on-the-Fly GPU Audio to Spectrogram Conversion Toolbox Using 1D Convolutional Neural Networks}, Jahr = {2020}, Volume = {8}, Nummer = {}, pages = {161981-162003}, doi = {10.1109/access.2020.3019084}}
Nnaudio ist ein schnell wachsendes Paket. Mit der zunehmenden Anzahl von Feature -Anfragen begrüßen wir alle, die mit der digitalen Signalverarbeitung und dem neuronalen Netzwerk vertraut sind, um zu Naudio beizutragen. Die aktuelle Liste der anstehenden Funktionen umfasst:
(Schnelle Tipps für den Unit -Test: cd im Installationsordner und geben Sie dann pytest ein. Sie benötigen mindestens 1931 MIB -GPU -Speicher, um alle Unit -Tests zu bestehen.)
Alternativ können Sie auch einen Beitrag leisten von:
Numpy> = 1.14.5
Scipy> = 1.2.0
Pytorch> = 1,6.0 (Griffin-lim erst nach 1.6.0 verfügbar)
Python> = 3,6
librosa = 0,7.0 (theoretisch nnaudio hängt von librosa ab. Wir müssen jedoch nur eine einzelne Funktion mel von librosa.filters verwenden. Um Benutzer Probleme vor der Installation von Librosa für diese einzelne Funktion zu speichern, kann ich nur die Kopie des Stücks von Funktionen in meinem mel kopieren, damit Naudio ohne die Bedürfnisse der LIBROSA installiert werden kann.)
Kapre
Torch-Stft