Nnaudio는 Pytorch Convolutional Neural Network를 백엔드로 사용하는 오디오 처리 도구 상자입니다. 그렇게함으로써, 신경망 훈련 중에 오디오 온 오디오에서 스펙트로 그램을 생성 할 수 있으며 푸리에 커널 (예 : CQT 커널)을 교육 할 수 있습니다. Kapre는 1D Convolutional Neural Network를 사용하여 Keras를 기반으로 스펙트로 그램을 추출하는 유사한 개념을 가지고 있습니다.
다른 GPU 오디오 처리 도구는 Torchaudio 및 Tf.Signal입니다. 그러나 그들은 신경망 접근법을 사용하지 않으므로 푸리에 기반을 훈련시킬 수 없습니다. Pytorch 1.6.0 현재 Torchaudio는 sox 로 인해 Windows 환경에서 설치하기가 여전히 어렵습니다. Nnaudio는 주로 Pytorch Convolutional Neural Network에 의존하기 때문에 다양한 운영 체제에서보다 호환 가능한 오디오 처리 도구입니다. Nnaudio의 이름은 torch.nn 에서 나옵니다
pip install git+https://github.com/KinWaiCheuk/nnAudio.git#subdirectory=Installation
또는
pip install nnAudio==0.3.1
https://kinwaicheuk.github.io/nnaudio/index.html
| 특징 | Nnaudio | 횃불 | 카프르 | Torchaudio | tf.signal | 토치-스프트 | Librosa |
|---|---|---|---|---|---|---|---|
| 훈련 가능 | ✅ | ✅ | ✅ | ||||
| 차별화 가능 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | |
| 선형 주파수 STFT | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 로그 주파수 STFT | ✅ | ✅ | |||||
| 역 STFT | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| 그리핀-림 | ✅ | ✅ | ✅ | ✅ | |||
| 멜 | ✅ | ✅ | ✅ | ✅ | ✅ | ||
| MFCC | ✅ | ✅ | ✅ | ✅ | |||
| CQT | ✅ | ✅ | |||||
| vqt | ✅ | ✅ | |||||
| 감마 톤 | ✅ | ||||||
| CFP 1 | ✅ | ||||||
| GPU 지원 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
✅ : 전액 지원 support️ : 개발 (개발 버전에서만 사용 가능) : 지원되지 않음
1 다성 음악의 멀티 치트 추정을위한 스펙트럼 및 시간적 표현 결합
전체 ChangeLog를 보려면 ChangeLog.md로 이동하십시오
버전 0.3.1 (2021 년 12 월 24 일) :
버전 0.3.0 (2021 년 11 월 19 일) :
nnAudio.Spectrogram 향후 릴리스의 nnAudio.features 로 대체됩니다. 현재 두 방법을 통해 다양한 스펙트럼 유형이 액세스 할 수 있습니다. Nnaudio 용 논문은 IEEE 액세스에 대해서는 불가능합니다
KW Cheuk, H. Anderson, K. Agres 및 D. Herreremans, "Nnaudio : 1D Convolutional Neural Networks, vol. 8, pp. 161981-162003, 2020, doi : 10.1109/access.2020.3019084.
@article {9174990, author = {kw {cheuk} 및 H. {Anderson} 및 K. {agres} 및 D. {Herreremans}}, journal = {ieee access}, title = {nnaudio : on-the-fly gpu jourtion to an on-the-fly gpu jourtion tool to 1d recontal nework}, volume = {8}, 번호 = {}, pages = {161981-162003}, doi = {10.1109/access.2020.3019084}}
Nnaudio는 빠르게 성장하는 패키지입니다. 기능 요청 수가 증가함에 따라 디지털 신호 처리 및 신경망에 익숙한 사람이 Nnaudio에 기여할 수 있도록 환영합니다. 보류 기능의 현재 목록에는 다음이 포함됩니다.
(단위 테스트를위한 빠른 팁 : cd 내부 설치 폴더, pytest 입력하십시오. 모든 단위 테스트를 통과하려면 최소 1931 MIB GPU 메모리가 필요합니다)
또는 다음에 의해 기여할 수도 있습니다.
Numpy> = 1.14.5
scipy> = 1.2.0
Pytorch> = 1.6.0 (Griffin-LIM은 1.6.0 이후에만 가능)
파이썬> = 3.6
librosa = 0.7.0 (이론적으로 nnaudio는 Librosa에 의존합니다. 그러나 우리는 librosa.filters 의 단일 함수 mel 사용하면됩니다.이 단일 기능에 대해 Librosa를 설치하는 데 사용자의 문제를 저장하기 위해서는 Nnaudio가 Librosa를 설치할 필요없이 실행되도록 내 코드에서 mel 에 해당하는 기능의 덩어리를 복사합니다).
카프르
토치-스프트