audiotoken
v0.3.1
음향 및 시맨틱 토큰을 얻기 위해 오디오를 토큰 화하십시오.
pip install audiotoken음향 또는 시맨틱 인코더를 사용하여 오디오를 인코딩하고 토큰을 얻을 수 있습니다.
from pathlib import Path
from audiotoken import AudioToken , Tokenizers
encoder = AudioToken ( tokenizer = Tokenizers . acoustic , device = 'cuda:0' )
encoded_audio = encoder . encode ( Path ( 'path/to/audio.wav' ))1 개의 음향 및 2 개의 시맨틱 토큰 화제가 있습니다.
Tokenizers.acousticTokenizers.semantic_s (작은)Tokenizers.semantic_m (중간)다음과 같이 음향 토큰을 디코딩 할 수 있습니다.
from pathlib import Path
from audiotoken import AudioToken , Tokenizers
tokenizer = AudioToken ( tokenizer = Tokenizers . acoustic , device = 'cuda:0' )
encoded_audio = tokenizer . encode ( Path ( 'path/to/audio.wav' ))
decoded_audio = tokenizer . decode ( encoded_audio )
# Save the decoded audio and compare it with the original audio
import torch
import torchaudio
torchaudio . save (
'reconstructed.wav' ,
decoded_audio ,
sample_rate = 24000
)다음과 같은 시맨틱 토큰을 해독 할 수 있습니다.
from pathlib import Path
from audiotoken import AudioToken , Tokenizers
semantic_tokenizer = AudioToken ( tokenizer = Tokenizers . semantic_s , device = 'cuda:0' )
semantic_toks = semantic_tokenizer . encode ( Path ( 'path/to/audio.wav' ))
decoded_audio = semantic_tokenizer . decode ( semantic_toks )
# Save the decoded audio and compare it with the original audio
import torch
import torchaudio
torchaudio . save (
'reconstructed.wav' ,
decoded_audio ,
sample_rate = 24000
)더 많은 사용 예제는 예제/usage.ipynb를 참조하십시오.
핵심 클래스
from audiotoken import AudioToken , Tokenizers
tokenizer = AudioToken ( tokenizer = Tokenizers . semantic_m , device = 'cuda:0' )API의 전체 문서화는 Audiotoken/Core.py를 참조하십시오.
제공되는 3 개의 API가 있습니다.
tokenizer.encode : 한 번에 단일 오디오 파일/어레이를 인코딩합니다tokenizer.encode_batch_files : 여러 오디오 파일 인코딩 배치로 직접 디스크에 저장encode_batch_files 데이터가 잘못된 데이터를 초래할 수 있으므로 동일한 파일 목록에서 여러 번 실행하는 것이 안전하지 않습니다. 이것은 향후 릴리스에서 고정 될 것입니다.tokenizer.decode : Decode 음향/시맨틱 토큰