audio -Download - audio -Quellcode -Download

audio

Python

TorchAudio 2.5.0 Release

Herunterladen

Torchaudio: Eine Audiobibliothek für Pytorch

Torchaudio -Logo

Ziel von Torchaudio ist es, Pytorch auf die Audiodomäne anzuwenden. Durch die Unterstützung von Pytorch folgt Torchaudio der gleichen Philosophie, eine starke GPU -Beschleunigung bereitzustellen, sich auf trainierbare Merkmale durch das Autograd -System zu konzentrieren und einen konsistenten Stil (Tensornamen und Dimensionsnamen) zu haben. Daher handelt es sich in erster Linie um eine Bibliothek für maschinelles Lernen und keine allgemeine Signalverarbeitungsbibliothek. Die Vorteile von Pytorch sind in Torchaudio zu sehen, indem alle Berechnungen durch Pytorch -Operationen erfolgen, was es einfach macht, sie zu verwenden und sich wie eine natürliche Erweiterung zu fühlen.

Unterstützen Sie die Audio -E/A (Dateien laden, Dateien speichern)
- Laden Sie eine Vielzahl von Audioformaten wie wav , mp3 , ogg , flac , opus , sphere in einen Tensor mit Fackel mit SOX
- Kaldi (Ark/SCP)
Dataloader für gemeinsame Audio -Datensätze
Audio- und Sprachverarbeitungsfunktionen
- erzwungen_align
Gemeinsame Audio -Transformationen
- Spektrogramm, Amplitudetodb, Melscale, Melspectrogram, MFCC, Mulawencoding, Mulawdecoding, Resamtiche
Compliance -Schnittstellen: Führen Sie den Code mit Pytorch aus, die sich mit anderen Bibliotheken übereinstimmen
- Kaldi: Spektrogramm, FBANK, MFCC

Installation

Weitere Informationen finden Sie unter https://pytorch.org/audio/main/installation.html zur Installation und Erstellung des Prozesses von Torchaudio.

API -Referenz

Die API -Referenz befindet sich hier: http://pytorch.org/audio/main/

Richtlinien beitragen

Bitte beziehen Sie sich auf den Beitrag.md

Zitat

Wenn Sie dieses Paket nützlich finden, zitieren Sie bitte:

 @article { yang2021torchaudio ,
  title = { TorchAudio: Building Blocks for Audio and Speech Processing } ,
  author = { Yao-Yuan Yang and Moto Hira and Zhaoheng Ni and Anjali Chourdia and Artyom Astafurov and Caroline Chen and Ching-Feng Yeh and Christian Puhrsch and David Pollack and Dmitriy Genzel and Donny Greenberg and Edward Z. Yang and Jason Lian and Jay Mahadeokar and Jeff Hwang and Ji Chen and Peter Goldsborough and Prabhat Roy and Sean Narenthiran and Shinji Watanabe and Soumith Chintala and Vincent Quenneville-Bélair and Yangyang Shi } ,
  journal = { arXiv preprint arXiv:2110.15018 } ,
  year = { 2021 }
}

 @misc { hwang2023torchaudio ,
      title = { TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch } , 
      author = { Jeff Hwang and Moto Hira and Caroline Chen and Xiaohui Zhang and Zhaoheng Ni and Guangzhi Sun and Pingchuan Ma and Ruizhe Huang and Vineel Pratap and Yuekai Zhang and Anurag Kumar and Chin-Yun Yu and Chuang Zhu and Chunxi Liu and Jacob Kahn and Mirco Ravanelli and Peng Sun and Shinji Watanabe and Yangyang Shi and Yumeng Tao and Robin Scheibler and Samuele Cornell and Sean Kim and Stavros Petridis } ,
      year = { 2023 } ,
      eprint = { 2310.17864 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

Haftungsausschluss für Datensätze

Dies ist eine Versorgungsbibliothek, die öffentliche Datensätze herunterladen und vorbereitet. Wir hosten oder verteilen diese Datensätze nicht, bürgen nicht für ihre Qualität oder Fairness oder behaupten, dass Sie die Lizenz zur Verwendung des Datensatzes haben. Es liegt in Ihrer Verantwortung zu bestimmen, ob Sie die Erlaubnis haben, den Datensatz unter der Lizenz des Datensatzes zu verwenden.

Wenn Sie ein Datensatzbesitzer sind und einen Teil davon (Beschreibung, Zitat usw.) aktualisieren möchten oder nicht möchten, dass Ihr Datensatz in dieser Bibliothek aufgenommen wird, wenden Sie sich bitte über ein Github -Problem. Vielen Dank für Ihren Beitrag zur ML -Community!

Vorausgebildete Modelllizenz

Die in dieser Bibliothek bereitgestellten vorgeborenen Modelle haben möglicherweise ihre eigenen Lizenzen oder Bedingungen, die aus dem für die Schulung verwendeten Datensatz abgeleitet werden. Es liegt in Ihrer Verantwortung festzustellen, ob Sie die Erlaubnis haben, die Modelle für Ihren Anwendungsfall zu verwenden.

Zum Beispiel wird das Squimsubjective-Modell unter der Lizenz für Creative Commons Attribution Non Commercial 4.0 International (CC-by-NC 4.0) veröffentlicht. Weitere Details finden Sie im Link.

Andere vorgebaute Modelle mit unterschiedlichen Lizenz sind in der Dokumentation festgestellt. Bitte überprüfen Sie die Dokumentationsseite.

Expandieren

Zusätzliche Informationen