bytepiece rs
1.0.0
實施SU的字節。
ByteTiece是一種新的令牌方法,它使用UTF-8字節作為雜物來處理文本。它幾乎不需要預處理,更純淨和語言獨立。
from rs_bytepiece import Tokenizer
tokenizer = Tokenizer ()
output = tokenizer . encode ( "今天天气不错" )
print ( output )
# [40496, 45268, 39432]