vocos mlx Téléchargement - vocos mlx Source Téléchargement

vocos mlx

Code Source AI

0.0.7

Télécharger

Vocos - mlx

Implémentation de VOCOS avec le cadre MLX. VOCOS permet une reconstruction de haute qualité de l'audio à partir de spectrogrammes MEL ou de jetons d'encoder.

Vocos: combler l'écart entre le domaine temporel et les vocodeurs neuronaux basés sur Fourier pour une synthèse audio de haute qualité

Papier [ABS] [PDF]

Installation

Pour utiliser vocos en mode inférence, installez-le en utilisant:

pip install vocos-mlx

Usage

Spectrogramme de Mel

 from vocos_mlx import Vocos , load_audio , log_mel_spectrogram

vocos = Vocos . from_pretrained ( "lucasnewman/vocos-mel-24khz" )

# reconstruct
audio = load_audio ( "audio.wav" , 24_000 )
reconstructed_audio = vocos ( audio )

# decode from mel spec
mel_spec = log_mel_spectrogram ( audio , n_mels = 100 )
decoded_audio = vocos . decode ( mel_spec )

Encoder

 from vocos_mlx import Vocos , load_audio

vocos = Vocos . from_pretrained ( "lucasnewman/vocos-encodec-24khz" )

# reconstruct
audio = load_audio ( "audio.wav" , 24_000 )
reconstructed_audio = vocos ( audio , bandwidth_id = 3 )

# decode with encodec codes
codes = vocos . get_encodec_codes ( audio , bandwidth_id = 3 )
decoded_audio = vocos . decode_from_codes ( codes , bandwidth_id = 3 )

Appréciation

AWNI Hannun pour la mise en œuvre de l'encodie de référence pour MLX.

Citations

 @article{siuzdak2023vocos,
  title={Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis},
  author={Siuzdak, Hubert},
  journal={arXiv preprint arXiv:2306.00814},
  year={2023}
}