Téléchargement audio - Téléchargement du code source audio

audio

Python

TorchAudio 2.5.0 Release

Télécharger

Torchaudio: une bibliothèque audio pour Pytorch

Logo Torchaudio

L'objectif de Torchaudio est d'appliquer Pytorch au domaine audio. En soutenant Pytorch, Torchaudio suit la même philosophie de fournir une forte accélération du GPU, de se concentrer sur les fonctionnalités formables via le système Autograd et d'avoir un style cohérent (noms de tenseur et noms de dimension). Par conséquent, il s'agit principalement d'une bibliothèque d'apprentissage automatique et non d'une bibliothèque générale de traitement du signal. Les avantages de Pytorch peuvent être vus dans Torchaudio en ayant tous les calculs par le biais d'opérations de Pytorch, ce qui le rend facile à utiliser et à se sentir comme une extension naturelle.

Prise en charge des E / S audio (chargez des fichiers, enregistrez des fichiers)
- Chargez une variété de formats audio, tels que wav , mp3 , ogg , flac , opus , sphere , dans un tenseur de torche à l'aide de Sox
- Kaldi (arche / SCP)
Dataloaders pour les ensembles de données audio communs
Fonctions de traitement audio et de la parole
- forced_align
Transformes audio communes
- Spectrogramme, amplitudetodb, melscale, melspectrogram, MFCC, Mulawencoding, Mulawdecoding, Resemple
Interfaces de conformité: Exécutez le code à l'aide de pytorch qui s'aligne avec d'autres bibliothèques
- Kaldi: Spectrogram, FBANK, MFCC

Installation

Veuillez vous référer à https://pytorch.org/audio/main/installation.html pour le processus d'installation et de construction de Torchaudio.

Référence de l'API

La référence de l'API est située ici: http://pytorch.org/audio/main/

Lignes directrices contributives

Veuillez vous référer à contribution.md

Citation

Si vous trouvez ce package utile, veuillez citer comme:

 @article { yang2021torchaudio ,
  title = { TorchAudio: Building Blocks for Audio and Speech Processing } ,
  author = { Yao-Yuan Yang and Moto Hira and Zhaoheng Ni and Anjali Chourdia and Artyom Astafurov and Caroline Chen and Ching-Feng Yeh and Christian Puhrsch and David Pollack and Dmitriy Genzel and Donny Greenberg and Edward Z. Yang and Jason Lian and Jay Mahadeokar and Jeff Hwang and Ji Chen and Peter Goldsborough and Prabhat Roy and Sean Narenthiran and Shinji Watanabe and Soumith Chintala and Vincent Quenneville-Bélair and Yangyang Shi } ,
  journal = { arXiv preprint arXiv:2110.15018 } ,
  year = { 2021 }
}

 @misc { hwang2023torchaudio ,
      title = { TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch } , 
      author = { Jeff Hwang and Moto Hira and Caroline Chen and Xiaohui Zhang and Zhaoheng Ni and Guangzhi Sun and Pingchuan Ma and Ruizhe Huang and Vineel Pratap and Yuekai Zhang and Anurag Kumar and Chin-Yun Yu and Chuang Zhu and Chunxi Liu and Jacob Kahn and Mirco Ravanelli and Peng Sun and Shinji Watanabe and Yangyang Shi and Yumeng Tao and Robin Scheibler and Samuele Cornell and Sean Kim and Stavros Petridis } ,
      year = { 2023 } ,
      eprint = { 2310.17864 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

Avertissement sur les ensembles de données

Il s'agit d'une bibliothèque utilitaire qui télécharge et prépare des ensembles de données publiques. Nous n'hébergeons ni ne distribuons pas ces ensembles de données, ne garantissons pas leur qualité ou leur équité, ni ne prétendons que vous avez une licence pour utiliser l'ensemble de données. Il est de votre responsabilité de déterminer si vous avez la permission d'utiliser l'ensemble de données sous la licence de l'ensemble de données.

Si vous êtes propriétaire d'un ensemble de données et que vous souhaitez mettre à jour une partie de celui-ci (description, citation, etc.), ou si vous ne souhaitez pas que votre ensemble de données soit inclus dans cette bibliothèque, veuillez nous contacter via un problème GitHub. Merci pour votre contribution à la communauté ML!

Licence de modèle pré-formé

Les modèles pré-formés fournis dans cette bibliothèque peuvent disposer de leurs propres licences ou termes et conditions dérivés de l'ensemble de données utilisés pour la formation. Il est de votre responsabilité de déterminer si vous avez la permission d'utiliser les modèles pour votre cas d'utilisation.

Par exemple, SquimSubjective Model est publié sous la licence Creative Commons Attribution Attribution non commerciale 4.0 (CC-BY-NC 4.0). Voir le lien pour plus de détails.

D'autres modèles pré-formés qui ont une licence différente sont notés dans la documentation. Veuillez vérifier la page de documentation.

Développer

Informations supplémentaires