Download audio - Download de código fonte audio

audio

Pitão

TorchAudio 2.5.0 Release

Baixar

Torchaudio: uma biblioteca de áudio para Pytorch

Logotipo Torchaudio

O objetivo do Torchaudio é aplicar Pytorch ao domínio de áudio. Ao apoiar a Pytorch, a Torchaudio segue a mesma filosofia de fornecer uma forte aceleração da GPU, tendo foco em recursos treináveis através do sistema AutoGrad e com estilo consistente (nomes de tensores e nomes de dimensões). Portanto, é principalmente uma biblioteca de aprendizado de máquina e não uma biblioteca geral de processamento de sinal. Os benefícios do Pytorch podem ser vistos em Torchaudio, com todos os cálculos através de operações de Pytorch, o que facilita o uso e a parência de uma extensão natural.

Suportar E/S de áudio (carregar arquivos, salvar arquivos)
- Carregue uma variedade de formatos de áudio, como wav , mp3 , ogg , flac , opus , sphere , em um tensor de tocha usando Sox
- Kaldi (Ark/SCP)
Dataloaders para conjuntos de dados de áudio comuns
Funções de processamento de áudio e fala
- forced_align
Transformações comuns de áudio
- Espectrograma, amplitudetodb, Melscale, Melspectrograma, MFCC, Mulawcecoding, MulawDecoding, Reampler
Interfaces de conformidade: Execute o código usando Pytorch alinhado com outras bibliotecas
- Kaldi: Spectrogram, FBANK, MFCC

Instalação

Consulte https://pytorch.org/audio/main/installation.html para instalação e construção do processo de Torchaudio.

Referência da API

A referência da API está localizada aqui: http://pytorch.org/audio/main/

Diretrizes contribuintes

Consulte contribuindo.md

Citação

Se você achar este pacote útil, cite como:

 @article { yang2021torchaudio ,
  title = { TorchAudio: Building Blocks for Audio and Speech Processing } ,
  author = { Yao-Yuan Yang and Moto Hira and Zhaoheng Ni and Anjali Chourdia and Artyom Astafurov and Caroline Chen and Ching-Feng Yeh and Christian Puhrsch and David Pollack and Dmitriy Genzel and Donny Greenberg and Edward Z. Yang and Jason Lian and Jay Mahadeokar and Jeff Hwang and Ji Chen and Peter Goldsborough and Prabhat Roy and Sean Narenthiran and Shinji Watanabe and Soumith Chintala and Vincent Quenneville-Bélair and Yangyang Shi } ,
  journal = { arXiv preprint arXiv:2110.15018 } ,
  year = { 2021 }
}

 @misc { hwang2023torchaudio ,
      title = { TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch } , 
      author = { Jeff Hwang and Moto Hira and Caroline Chen and Xiaohui Zhang and Zhaoheng Ni and Guangzhi Sun and Pingchuan Ma and Ruizhe Huang and Vineel Pratap and Yuekai Zhang and Anurag Kumar and Chin-Yun Yu and Chuang Zhu and Chunxi Liu and Jacob Kahn and Mirco Ravanelli and Peng Sun and Shinji Watanabe and Yangyang Shi and Yumeng Tao and Robin Scheibler and Samuele Cornell and Sean Kim and Stavros Petridis } ,
      year = { 2023 } ,
      eprint = { 2310.17864 } ,
      archivePrefix = { arXiv } ,
      primaryClass = { eess.AS }
}

Isenção de responsabilidade nos conjuntos de dados

Esta é uma biblioteca de utilitários que baixa e prepara conjuntos de dados públicos. Não hospedamos ou distribuímos esses conjuntos de dados, atestamos sua qualidade ou justiça ou afirmamos que você tem licença para usar o conjunto de dados. É de sua responsabilidade determinar se você tem permissão para usar o conjunto de dados na licença do conjunto de dados.

Se você é proprietário do conjunto de dados e deseja atualizar qualquer parte dele (descrição, citação etc.), ou não deseja que seu conjunto de dados seja incluído nesta biblioteca, entre em contato com um problema do Github. Obrigado pela sua contribuição para a comunidade ML!

Licença de modelo pré-treinada

Os modelos pré-treinados fornecidos nesta biblioteca podem ter suas próprias licenças ou termos e condições derivados do conjunto de dados usado para treinamento. É sua responsabilidade determinar se você tem permissão para usar os modelos para o seu caso de uso.

Por exemplo, o modelo squimsubjetivo é lançado sob a licença Creative Commons Attribution Non Commercial 4.0 International (CC-BY-NC 4.0). Veja o link para obter detalhes adicionais.

Outros modelos pré-treinados com licença diferente são observados na documentação. Confira a página de documentação.

Expandir

Informações adicionais