Nnaudio est une boîte à outils de traitement audio utilisant le réseau neuronal convolutionnel Pytorch comme backend. Ce faisant, les spectrogrammes peuvent être générés à partir de la volonté audio pendant la formation du réseau neuronal et les noyaux de Fourier (par exemple les noyaux CQT) peuvent être formés. Kapre a un concept similaire dans lequel ils utilisent également un réseau neuronal convolutionnel 1D pour extraire des spectrogrammes basés sur des keras.
Les autres outils de traitement audio GPU sont Torchaudio et TF.Signal. Mais ils n'utilisent pas l'approche du réseau neuronal, et donc la base de Fourier ne peut pas être formée. À partir de Pytorch 1.6.0, Torchaudio est encore très difficile à installer sous l'environnement Windows en raison de sox . Nnaudio est un outil de traitement audio plus compatible sur différents systèmes d'exploitation, car il s'appuie principalement sur le réseau neuronal convolutionnel Pytorch. Le nom de Nnaudio vient de torch.nn
pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation
ou
pip install nnAudio==0.3.1
https://kinwaicheuk.github.io/nnaudio/index.html
| Fonctionnalité | nnaudio | torche | kapre | torch audio | tf.signal | torch-stft | bibliothèque |
|---|---|---|---|---|---|---|---|
| Entraînant | ✅ | ✅ | ✅ | ||||
| Différenciable | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| Fréquence linéaire stft | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Fréquence logarithmique stft | ✅ | ✅ | |||||
| STFT inverse | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Griffin-lim | ✅ | ✅ | ✅ | ✅ | |||
| Mel | ✅ | ✅ | ✅ | ✅ | ✅ | ||
| MFCC | ✅ | ✅ | ✅ | ✅ | |||
| Cqt | ✅ | ✅ | |||||
| Vqt | ✅ | ✅ | |||||
| Gammatone | ✅ | ||||||
| CFP 1 | ✅ | ||||||
| Support GPU | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
✅: Prise en charge entièrement ☑️: Développement (uniquement disponible en version Dev): pas de prise en charge
1 combinant des représentations spectrales et temporelles pour l'estimation multipitch de la musique polyphonique
Pour voir le Changelog complet, veuillez aller sur changelog.md
Version 0.3.1 (24 décembre 2021):
Version 0.3.0 (19 novembre 2021):
nnAudio.Spectrogram sera remplacé par nnAudio.features dans les versions futures. Actuellement, divers types de spectrogrammes sont accessibles via les deux méthodes. Le papier pour nnaudio est avaliable sur l'accès IEEE
KW Cheuk, H. Anderson, K. Agres et D. Herremans, "Nnaudio: une boîte à outils audio GPU à la volée en utilisant des réseaux de neurones convolutionnels 1D", dans IEEE Access, vol. 8, pp. 161981-162003, 2020, doi: 10.1109 / Access.2020.3019084.
@Article {9174990, auteur = {KW {Cheuk} et H. {Anderson} et K. {agres} et D. {Herremans}}, journal = {IEEE Access}, title = {nnaudio: un audio GPU à la vol volume = {8}, nombre = {}, pages = {161981-162003}, doi = {10.1109 / Access.2020.3019084}}
Nnaudio est un package à croissance rapide. Avec le nombre croissant de demandes de fonctionnalités, nous accueillons toute personne qui connaît le traitement du signal numérique et le réseau neuronal pour contribuer à Nnaudio. La liste actuelle des fonctionnalités en attente comprend:
(Conseils rapides pour le test unitaire: cd à l'intérieur du dossier d'installation, puis tapez pytest . Vous avez besoin d'au moins 1931 MÉMOIRE MIB GPU pour passer tous les tests unitaires)
Alternativement, vous pouvez également contribuer par:
Numpy> = 1,14,5
Scipy> = 1.2.0
Pytorch> = 1,6.0 (Griffin-lim uniquement disponible après 1,6.0)
Python> = 3,6
Librosa = 0.7.0 (Théoriquement Nnaudio dépend de Librosa. Mais nous n'avons besoin d'utiliser qu'une seule fonction mel de librosa.filters . Pour enregistrer les problèmes des utilisateurs de l'installation de Biblingosa pour cette fonction unique, je copie simplement le morceau de fonctions correspondant à mel dans mon code pour que NNADIO s'exécute sans besoin d'installer Librosa)
Kapre
torch-stft