bytepiece rs
1.0.0
Implementierung von SUs Bytepie.
Bytepiece ist eine neue Tokenize-Methode, die UTF-8-Byte als Unigram verwendet, um Text zu verarbeiten. Es braucht wenig Vorverarbeitung, reiner und sprachunabhängiger.
from rs_bytepiece import Tokenizer
tokenizer = Tokenizer ()
output = tokenizer . encode ( "今天天气不错" )
print ( output )
# [40496, 45268, 39432]