Nnaudio - это инструмент для обработки аудио, использующий сверточную нейронную сеть Pytorch в качестве бэкэнда. Таким образом, спектрограммы могут быть сгенерированы из аудио на лету во время обучения нейронной сети, а ядра Фурье (например, ядра или ядра CQT) могут быть обучены. У Kapre есть аналогичная концепция, в которой они также используют 1D сверточную нейронную сеть для извлечения спектрограмм на основе керов.
Другими инструментами обработки звука графического процессора являются Torchaudio и TF.Signal. Но они не используют подход нейронной сети, и, следовательно, основатель Фурье не может быть обучена. По состоянию на Pytorch 1.6.0 Torchaudio все еще очень трудно установить в среде Windows из -за sox . Nnaudio является более совместимым инструментом обработки аудио в различных операционных системах, поскольку он полагается в основном на сверточной нейронной сети Pytorch. Название nnaudio происходит от torch.nn
pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation
или
pip install nnAudio==0.3.1
https://kinwaicheuk.github.io/nnaudio/index.html
| Особенность | Nnaudio | Torch.stft | Капр | Торчаудио | Tf.Signal | факел | Librosa |
|---|---|---|---|---|---|---|---|
| Обучаемый | ✅ | ✅ | ✅ | ||||
| Дифференцируемый | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| Линейная частота STFT | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Логарифмическая частота STFT | ✅ | ✅ | |||||
| Обратный STFT | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Гриффин-Лим | ✅ | ✅ | ✅ | ✅ | |||
| Мель | ✅ | ✅ | ✅ | ✅ | ✅ | ||
| MFCC | ✅ | ✅ | ✅ | ✅ | |||
| CQT | ✅ | ✅ | |||||
| Vqt | ✅ | ✅ | |||||
| Гамматон | ✅ | ||||||
| CFP 1 | ✅ | ||||||
| Поддержка графического процессора | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
✅: Полностью поддержка ☑: Разработка (доступна только в версии DEV): не поддержка
1 Комбинирование спектральных и временных представлений для оценки умножения полифонической музыки
Чтобы просмотреть полную изменение изменений, перейдите на Changelog.md
Версия 0.3.1 (24 декабря 2021 г.):
Версия 0.3.0 (19 ноября 2021 г.):
nnAudio.Spectrogram будет заменена nnAudio.features в будущих выпусках. В настоящее время различные типы спектрограммы доступны с помощью обоих методов. Бумага для Nnaudio доступна в IEEE Access
KW Cheuk, H. Anderson, K. Agres и D. Herremans, «Nnaudio: набор инструментов для графического процессора на лете в спектрограмму с использованием 1D сверточных нейронных сетей», в IEEE Access, Vol. 8, pp. 161981-162003, 2020, doi: 10.1109/access.2020.3019084.
@Article {9174990, Author = {kw {cheuk} и H. {Anderson} и K. {Agres} и D. {herremans}}, журнал = {IEEE Access}, title = {nnaudio: in-yt-hear-gpu audio to spectrogram poolbox, используя 1d convotortal neural. umome = {8}, number = {}, pages = {161981-162003}, doi = {10.1109/access.2020.3019084}}
Nnaudio-быстрорастущий пакет. С растущим числом запросов функций мы приветствуем всех, кто знаком с обработкой цифровых сигналов и нейронной сетью, внести свой вклад в NNAUDIO. Текущий список ожидающих функций включает в себя:
(Быстрые советы для модульного теста: cd внутри установки папки, затем введите pytest . Вам нужна не менее 1931 памяти графического процессора MIB для прохождения всех модульных тестов)
В качестве альтернативы, вы также можете внести свой вклад:
Numpy> = 1,14,5
Scipy> = 1.2.0
Pytorch> = 1,6,0 (гриффин-лим доступен только после 1.6.0)
Python> = 3,6
Librosa = 0,7,0 (теоретически Nnaudio зависит от Librosa. Но нам нужно использовать только одну функцию mel из librosa.filters . Чтобы спасти проблемы с пользователями от установки Librosa для этой единственной функции, я просто копирую кусок функций, соответствующих mel в моем коде, так что Nnaudio работает без необходимости установить Librosa)
Капр
факел