bytepiece rs
1.0.0
تنفيذ SU's bytepiece.
ByTepiece هي طريقة رمزية جديدة ، والتي تستخدم UTF-8 بايت باعتبارها unigram لمعالجة النص. إنه يحتاج إلى القليل من المعالجة المسبقة ، وأكثر نقية ومستقلة للغة.
from rs_bytepiece import Tokenizer
tokenizer = Tokenizer ()
output = tokenizer . encode ( "今天天气不错" )
print ( output )
# [40496, 45268, 39432]