audiotokenダウンロード - audiotokenソースコードのダウンロード

audiotoken

AI ソースコード

v0.3.1

ダウンロード

オーディオトコーン

オーディオをトークン化して、アコースティックトークとセマンティックトークンを取得します。

インストール

pip install audiotoken

使用法

エンコーディング

アコースティックまたはセマンティックエンコーダを使用してオーディオをエンコードしてトークンを取得できます。

 from pathlib import Path
from audiotoken import AudioToken , Tokenizers
encoder = AudioToken ( tokenizer = Tokenizers . acoustic , device = 'cuda:0' )
encoded_audio = encoder . encode ( Path ( 'path/to/audio.wav' ))

利用可能なアコースティックと2つのセマンティックトークナーがあります。

Tokenizers.acoustic
Tokenizers.semantic_s （小）
Tokenizers.semantic_m （medium）

デコード

このようなアコースティックトークンをデコードできます。

 from pathlib import Path
from audiotoken import AudioToken , Tokenizers

tokenizer = AudioToken ( tokenizer = Tokenizers . acoustic , device = 'cuda:0' )
encoded_audio = tokenizer . encode ( Path ( 'path/to/audio.wav' ))
decoded_audio = tokenizer . decode ( encoded_audio )

# Save the decoded audio and compare it with the original audio
import torch
import torchaudio
torchaudio . save (
    'reconstructed.wav' ,
    decoded_audio ,
    sample_rate = 24000
)

このようなセマンティックトークンをデコードできます：

 from pathlib import Path
from audiotoken import AudioToken , Tokenizers

semantic_tokenizer = AudioToken ( tokenizer = Tokenizers . semantic_s , device = 'cuda:0' )
semantic_toks = semantic_tokenizer . encode ( Path ( 'path/to/audio.wav' ))
decoded_audio = semantic_tokenizer . decode ( semantic_toks )

# Save the decoded audio and compare it with the original audio
import torch
import torchaudio
torchaudio . save (
    'reconstructed.wav' ,
    decoded_audio ,
    sample_rate = 24000
)

より多くの使用例については、例/usage.ipynbを参照してください。

API

コアクラス

 from audiotoken import AudioToken , Tokenizers
tokenizer = AudioToken ( tokenizer = Tokenizers . semantic_m , device = 'cuda:0' )

APIの完全なドキュメントについては、audiotoken/core.pyを参照してください。

3つのAPIが提供されています：

tokenizer.encode ：一度に単一のオーディオファイル/配列をエンコードします
tokenizer.encode_batch_files ：バッチで複数のオーディオファイルをエンコードし、それらを直接ディスクに保存します
1. 注： encode_batch_files 、データが間違っている可能性があるため、同じファイルのリストで複数回実行しても安全ではありません。これは、将来のリリースで修正されます。
tokenizer.decode ：アコースティック/セマンティックトークンをデコードします

拡大する

追加情報