audiotoken
v0.3.1
رمز الصوت للحصول على الرموز الصوتية والدلالية.
pip install audiotokenيمكنك إما استخدام مشفر صوتي أو دلالي لترميز الصوت والحصول على الرموز.
from pathlib import Path
from audiotoken import AudioToken , Tokenizers
encoder = AudioToken ( tokenizer = Tokenizers . acoustic , device = 'cuda:0' )
encoded_audio = encoder . encode ( Path ( 'path/to/audio.wav' ))هناك واحد صوتي و 2 مميزات دلالية متوفرة:
Tokenizers.acousticTokenizers.semantic_s (صغير)Tokenizers.semantic_m (متوسط)يمكنك فك تشفير الرموز الصوتية مثل هذا:
from pathlib import Path
from audiotoken import AudioToken , Tokenizers
tokenizer = AudioToken ( tokenizer = Tokenizers . acoustic , device = 'cuda:0' )
encoded_audio = tokenizer . encode ( Path ( 'path/to/audio.wav' ))
decoded_audio = tokenizer . decode ( encoded_audio )
# Save the decoded audio and compare it with the original audio
import torch
import torchaudio
torchaudio . save (
'reconstructed.wav' ,
decoded_audio ,
sample_rate = 24000
)يمكنك فك تشفير الرموز الدلالية مثل هذا:
from pathlib import Path
from audiotoken import AudioToken , Tokenizers
semantic_tokenizer = AudioToken ( tokenizer = Tokenizers . semantic_s , device = 'cuda:0' )
semantic_toks = semantic_tokenizer . encode ( Path ( 'path/to/audio.wav' ))
decoded_audio = semantic_tokenizer . decode ( semantic_toks )
# Save the decoded audio and compare it with the original audio
import torch
import torchaudio
torchaudio . save (
'reconstructed.wav' ,
decoded_audio ,
sample_rate = 24000
)انظر أمثلة/استخدام. ipynb لمزيد من أمثلة الاستخدام.
الطبقة الأساسية
from audiotoken import AudioToken , Tokenizers
tokenizer = AudioToken ( tokenizer = Tokenizers . semantic_m , device = 'cuda:0' )انظر Audiotoken/Core.py للحصول على وثائق كاملة من واجهات برمجة التطبيقات.
هناك 3 واجهات برمجة التطبيقات المقدمة:
tokenizer.encode : تشفير ملفات صوتية واحدة/صفائف في وقت واحدtokenizer.encode_batch_files : تشفير ملفات صوتية متعددة على دفعات وحفظها على القرص مباشرةencode_batch_files غير آمن لتشغيل عدة مرات في نفس قائمة الملفات التي يمكن أن تؤدي إلى بيانات غير صحيحة. سيتم إصلاح هذا في إصدار مستقبلي.tokenizer.decode : فك تشفير الرموز الصوتية/الدلالية