bytepiece rs
1.0.0
Implementación de SU's Bytepiece.
BytePiece es un nuevo método Tokenize, que usa UTF-8 Byte como unigram para procesar el texto. Necesita poco preprocesamiento, más puro e independiente del lenguaje.
from rs_bytepiece import Tokenizer
tokenizer = Tokenizer ()
output = tokenizer . encode ( "今天天气不错" )
print ( output )
# [40496, 45268, 39432]