
Torchaudioの目的は、Pytorchをオーディオドメインに適用することです。 Pytorchをサポートすることにより、Torchaudioは、強力なGPU加速を提供し、オートグラードシステムを介したトレーニング可能な機能に焦点を当て、一貫したスタイル(テンソル名と寸法名)を持つという同じ哲学に従います。したがって、これは主に機械学習ライブラリであり、一般的な信号処理ライブラリではありません。 Pytorchの利点は、Pytorch操作を通じてすべての計算を行うことにより、Torchaudioで見ることができます。これにより、使いやすく、自然な拡張のように感じられます。
wav 、 mp3 、 ogg 、 flac 、 opus 、 sphereなど、さまざまなオーディオ形式をソックスを使用してトーチテンソルにロードしますTorchaudioのインストールおよびビルドプロセスについては、https://pytorch.org/audio/main/installation.htmlを参照してください。
APIリファレンスはここにあります:http://pytorch.org/audio/main/
貢献を参照してください。md
このパッケージが便利だと思う場合は、次のように引用してください。
@article { yang2021torchaudio ,
title = { TorchAudio: Building Blocks for Audio and Speech Processing } ,
author = { Yao-Yuan Yang and Moto Hira and Zhaoheng Ni and Anjali Chourdia and Artyom Astafurov and Caroline Chen and Ching-Feng Yeh and Christian Puhrsch and David Pollack and Dmitriy Genzel and Donny Greenberg and Edward Z. Yang and Jason Lian and Jay Mahadeokar and Jeff Hwang and Ji Chen and Peter Goldsborough and Prabhat Roy and Sean Narenthiran and Shinji Watanabe and Soumith Chintala and Vincent Quenneville-Bélair and Yangyang Shi } ,
journal = { arXiv preprint arXiv:2110.15018 } ,
year = { 2021 }
} @misc { hwang2023torchaudio ,
title = { TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch } ,
author = { Jeff Hwang and Moto Hira and Caroline Chen and Xiaohui Zhang and Zhaoheng Ni and Guangzhi Sun and Pingchuan Ma and Ruizhe Huang and Vineel Pratap and Yuekai Zhang and Anurag Kumar and Chin-Yun Yu and Chuang Zhu and Chunxi Liu and Jacob Kahn and Mirco Ravanelli and Peng Sun and Shinji Watanabe and Yangyang Shi and Yumeng Tao and Robin Scheibler and Samuele Cornell and Sean Kim and Stavros Petridis } ,
year = { 2023 } ,
eprint = { 2310.17864 } ,
archivePrefix = { arXiv } ,
primaryClass = { eess.AS }
}これは、パブリックデータセットをダウンロードおよび準備するユーティリティライブラリです。これらのデータセットをホストまたは配布したり、品質や公平性を保証したり、データセットを使用するライセンスがあると主張したりしません。データセットのライセンスの下でデータセットを使用する許可があるかどうかを判断するのはあなたの責任です。
データセットの所有者であり、その一部(説明、引用など)を更新したい場合、またはこのライブラリにデータセットを含めることを望まない場合は、GitHub号をご連絡ください。 MLコミュニティへの貢献に感謝します!
このライブラリで提供される事前に訓練されたモデルには、トレーニングに使用されるデータセットから派生した独自のライセンスまたは条件がある場合があります。ユースケースにモデルを使用する許可があるかどうかを判断するのはあなたの責任です。
たとえば、SimSubjectiveモデルは、Creative Commons Attribution Non Commercial 4.0 International(CC-BY-NC 4.0)ライセンスの下でリリースされます。詳細については、リンクを参照してください。
ライセンスが異なる他の事前に訓練されたモデルは、ドキュメントに記載されています。ドキュメントページをチェックアウトしてください。