Téléchargement nnAudio - Téléchargement du code source nnAudio

nnAudio

Python

Code refactoring and updating

Télécharger

nnaudio

Nnaudio est une boîte à outils de traitement audio utilisant le réseau neuronal convolutionnel Pytorch comme backend. Ce faisant, les spectrogrammes peuvent être générés à partir de la volonté audio pendant la formation du réseau neuronal et les noyaux de Fourier (par exemple les noyaux CQT) peuvent être formés. Kapre a un concept similaire dans lequel ils utilisent également un réseau neuronal convolutionnel 1D pour extraire des spectrogrammes basés sur des keras.

Les autres outils de traitement audio GPU sont Torchaudio et TF.Signal. Mais ils n'utilisent pas l'approche du réseau neuronal, et donc la base de Fourier ne peut pas être formée. À partir de Pytorch 1.6.0, Torchaudio est encore très difficile à installer sous l'environnement Windows en raison de sox . Nnaudio est un outil de traitement audio plus compatible sur différents systèmes d'exploitation, car il s'appuie principalement sur le réseau neuronal convolutionnel Pytorch. Le nom de Nnaudio vient de torch.nn

Installation

pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation

ou

pip install nnAudio==0.3.1

Documentation

https://kinwaicheuk.github.io/nnaudio/index.html

Comparaison avec d'autres bibliothèques

Fonctionnalité	nnaudio	torche	kapre	torch audio	tf.signal	torch-stft	bibliothèque
Entraînant	✅		✅			✅
Différenciable	✅	✅	✅	✅	✅	✅
Fréquence linéaire stft	✅	✅	✅	✅	✅	✅	✅
Fréquence logarithmique stft	✅		✅
STFT inverse	✅	✅	✅	✅	✅	✅	✅
Griffin-lim	✅			✅	✅		✅
Mel	✅		✅	✅	✅		✅
MFCC	✅			✅	✅		✅
Cqt	✅						✅
Vqt	✅						✅
Gammatone	✅
CFP ¹	✅
Support GPU	✅	✅	✅	✅	✅	✅

✅: Prise en charge entièrement ☑️: Développement (uniquement disponible en version Dev): pas de prise en charge

¹ combinant des représentations spectrales et temporelles pour l'estimation multipitch de la musique polyphonique

News & Changelog

Pour voir le Changelog complet, veuillez aller sur changelog.md

Version 0.3.1 (24 décembre 2021):

Ajout de la fonction VQT # 113

Version 0.3.0 (19 novembre 2021):

Numérisation du module modifié. nnAudio.Spectrogram sera remplacé par nnAudio.features dans les versions futures. Actuellement, divers types de spectrogrammes sont accessibles via les deux méthodes.

Comment citer nnaudio

Le papier pour nnaudio est avaliable sur l'accès IEEE

KW Cheuk, H. Anderson, K. Agres et D. Herremans, "Nnaudio: une boîte à outils audio GPU à la volée en utilisant des réseaux de neurones convolutionnels 1D", dans IEEE Access, vol. 8, pp. 161981-162003, 2020, doi: 10.1109 / Access.2020.3019084.

Bibtex

@Article {9174990, auteur = {KW {Cheuk} et H. {Anderson} et K. {agres} et D. {Herremans}}, journal = {IEEE Access}, title = {nnaudio: un audio GPU à la vol volume = {8}, nombre = {}, pages = {161981-162003}, doi = {10.1109 / Access.2020.3019084}}

Appel aux contributions

Nnaudio est un package à croissance rapide. Avec le nombre croissant de demandes de fonctionnalités, nous accueillons toute personne qui connaît le traitement du signal numérique et le réseau neuronal pour contribuer à Nnaudio. La liste actuelle des fonctionnalités en attente comprend:

TRANSFORMATION DE CONSTANT Q

(Conseils rapides pour le test unitaire: cd à l'intérieur du dossier d'installation, puis tapez pytest . Vous avez besoin d'au moins 1931 MÉMOIRE MIB GPU pour passer tous les tests unitaires)

Alternativement, vous pouvez également contribuer par:

Faire un meilleur code de démonstration ou tutoriel

Dépendances

Numpy> = 1,14,5

Scipy> = 1.2.0

Pytorch> = 1,6.0 (Griffin-lim uniquement disponible après 1,6.0)

Python> = 3,6

Librosa = 0.7.0 (Théoriquement Nnaudio dépend de Librosa. Mais nous n'avons besoin d'utiliser qu'une seule fonction mel de librosa.filters . Pour enregistrer les problèmes des utilisateurs de l'installation de Biblingosa pour cette fonction unique, je copie simplement le morceau de fonctions correspondant à mel dans mon code pour que NNADIO s'exécute sans besoin d'installer Librosa)