bytepiece rs
1.0.0
Mise en œuvre de la copie de SU.
Les besoins de collaboration sont une nouvelle méthode de tokenize, qui utilise un octet UTF-8 comme unigramme pour traiter le texte. Il nécessite peu de prétraitement, plus pur et indépendant du langage.
from rs_bytepiece import Tokenizer
tokenizer = Tokenizer ()
output = tokenizer . encode ( "今天天气不错" )
print ( output )
# [40496, 45268, 39432]