audiotoken
v0.3.1
オーディオをトークン化して、アコースティックトークとセマンティックトークンを取得します。
pip install audiotokenアコースティックまたはセマンティックエンコーダを使用してオーディオをエンコードしてトークンを取得できます。
from pathlib import Path
from audiotoken import AudioToken , Tokenizers
encoder = AudioToken ( tokenizer = Tokenizers . acoustic , device = 'cuda:0' )
encoded_audio = encoder . encode ( Path ( 'path/to/audio.wav' ))利用可能なアコースティックと2つのセマンティックトークナーがあります。
Tokenizers.acousticTokenizers.semantic_s (小)Tokenizers.semantic_m (medium)このようなアコースティックトークンをデコードできます。
from pathlib import Path
from audiotoken import AudioToken , Tokenizers
tokenizer = AudioToken ( tokenizer = Tokenizers . acoustic , device = 'cuda:0' )
encoded_audio = tokenizer . encode ( Path ( 'path/to/audio.wav' ))
decoded_audio = tokenizer . decode ( encoded_audio )
# Save the decoded audio and compare it with the original audio
import torch
import torchaudio
torchaudio . save (
'reconstructed.wav' ,
decoded_audio ,
sample_rate = 24000
)このようなセマンティックトークンをデコードできます:
from pathlib import Path
from audiotoken import AudioToken , Tokenizers
semantic_tokenizer = AudioToken ( tokenizer = Tokenizers . semantic_s , device = 'cuda:0' )
semantic_toks = semantic_tokenizer . encode ( Path ( 'path/to/audio.wav' ))
decoded_audio = semantic_tokenizer . decode ( semantic_toks )
# Save the decoded audio and compare it with the original audio
import torch
import torchaudio
torchaudio . save (
'reconstructed.wav' ,
decoded_audio ,
sample_rate = 24000
)より多くの使用例については、例/usage.ipynbを参照してください。
コアクラス
from audiotoken import AudioToken , Tokenizers
tokenizer = AudioToken ( tokenizer = Tokenizers . semantic_m , device = 'cuda:0' )APIの完全なドキュメントについては、audiotoken/core.pyを参照してください。
3つのAPIが提供されています:
tokenizer.encode :一度に単一のオーディオファイル/配列をエンコードしますtokenizer.encode_batch_files :バッチで複数のオーディオファイルをエンコードし、それらを直接ディスクに保存しますencode_batch_files 、データが間違っている可能性があるため、同じファイルのリストで複数回実行しても安全ではありません。これは、将来のリリースで修正されます。tokenizer.decode :アコースティック/セマンティックトークンをデコードします