bytepiece rs
1.0.0
实施SU的字节。
ByteTiece是一种新的令牌方法,它使用UTF-8字节作为杂物来处理文本。它几乎不需要预处理,更纯净和语言独立。
from rs_bytepiece import Tokenizer
tokenizer = Tokenizer ()
output = tokenizer . encode ( "今天天气不错" )
print ( output )
# [40496, 45268, 39432]