llmsharp tokenizers
v2.0.3
dotnet add package LLMSharp.Anthropic.Tokenizer
dotnet add package LLMSharp.OpenAi.Tokenizer
// Claude Tokenizer
using LLMSharp . Anthropic . Tokenizer ;
var tokenizer = new ClaudeTokenizer ( ) ;
// OpenAi ChatCompletion Models Tokenizer
using LLMSharp . OpenAi . Tokenizer ;
var tokenizer = new OpenAiChatCompletionsTokenizer ( ) ; var encodedTokens = tokenizer . Encode ( " hello world " ) ; var tokenCount = tokenizer . CountTokens ( " hello world " ) ; // passing 'null' for allowedSpecial , will help tokenize all special tokens
var encodedBytes = tokenizer . EncodeWithSpecialTokens (
text : " <META_START>some data<META_END> " ,
allowedSpecial : null ,
disallowedSpecial : null ) ;
// passing an array of strings for allowedSpecial , will help tokenize only those special tokens
// any other special tokens found in the text will throw an exception
var encodedBytes = tokenizer . EncodeWithSpecialTokens (
text : " <META_START>some data<META_END> " ,
allowedSpecial : new string [ ] { " <META_START> " , " <META_END> " } ,
disallowedSpecial : null ) ; var tokenCount = tokenizer . CountWithSpecialTokens (
text : " <META_START>some data<META_END> " ,
allowedSpecial : new string [ ] { " <META_START> " , " <META_END> " } ,
disallowedSpecial : null ) ; ترميز و counttokens لـ 4200 رمز (حوالي 16 كيلو بايت) من النص
Linux
BenchmarkDotNet v0.13.7, Ubuntu 22.04.3 LTS (Jammy Jellyfish)
Intel Xeon Platinum 8370C CPU 2.80GHz, 1 CPU, 1 logical core and 1 physical core
.NET SDK 7.0.110
[Host] : .NET 7.0.10 (7.0.1023.36801), X64 RyuJIT AVX2
.NET 6.0 : .NET 6.0.21 (6.0.2123.36801), X64 RyuJIT AVX2
.NET 7.0 : .NET 7.0.10 (7.0.1023.36801), X64 RyuJIT AVX2
| طريقة | وظيفة | وقت التشغيل | StringToenCode | يقصد |
|---|---|---|---|---|
| OpenaichatCompletionStokenizerencode | .NET 6.0 | .NET 6.0 | يخدع (...) ه. n [16926] | 1.328 مللي ثانية |
| OpenaichatCompletionStokenizerencode | .NET 7.0 | .NET 7.0 | يخدع (...) ه. n [16926] | 1.239 مللي ثانية |
| OpenaichatCompletionStokenizerCounttokens | .NET 6.0 | .NET 6.0 | يخدع (...) ه. n [16926] | 1.274 مللي ثانية |
| OpenaichatCompletionStokenizerCounttokens | .NET 7.0 | .NET 7.0 | يخدع (...) ه. n [16926] | 1.142 مللي ثانية |
| ClaudeTokenizerencode | .NET 6.0 | .NET 6.0 | يخدع (...) ه. n [16926] | 1.343 مللي ثانية |
| ClaudeTokenizerencode | .NET 7.0 | .NET 7.0 | يخدع (...) ه. n [16926] | 1.188 مللي ثانية |
| ClaudeTokenizerCounttokens | .NET 6.0 | .NET 6.0 | يخدع (...) ه. n [16926] | 1.270 مللي ثانية |
| ClaudeTokenizerCounttokens | .NET 7.0 | .NET 7.0 | يخدع (...) ه. n [16926] | 1.160 مللي ثانية |
ماكوس
BenchmarkDotNet v0.13.7, macOS Ventura 13.4.1 (c) (22F770820d) [Darwin 22.5.0]
Apple M2, 1 CPU, 8 logical and 8 physical cores
.NET SDK 7.0.304
[Host] : .NET 7.0.7 (7.0.723.27404), Arm64 RyuJIT AdvSIMD
.NET 6.0 : .NET 6.0.21 (6.0.2123.36311), Arm64 RyuJIT AdvSIMD
.NET 7.0 : .NET 7.0.7 (7.0.723.27404), Arm64 RyuJIT AdvSIMD
| طريقة | وظيفة | وقت التشغيل | StringToenCode | يقصد |
|---|---|---|---|---|
| OpenaichatCompletionStokenizerencode | .NET 6.0 | .NET 6.0 | يخدع (...) ه. n [16926] | 1،133.5 μs |
| OpenaichatCompletionStokenizerencode | .NET 7.0 | .NET 7.0 | يخدع (...) ه. n [16926] | 738.2 μs |
| OpenaichatCompletionStokenizerCounttokens | .NET 6.0 | .NET 6.0 | يخدع (...) ه. n [16926] | 1،071.3 μs |
| OpenaichatCompletionStokenizerCounttokens | .NET 7.0 | .NET 7.0 | يخدع (...) ه. n [16926] | 709.5 μs |
| ClaudeTokenizerencode | .NET 6.0 | .NET 6.0 | يخدع (...) ه. n [16926] | 1،186.3 μs |
| ClaudeTokenizerencode | .NET 7.0 | .NET 7.0 | يخدع (...) ه. n [16926] | 703.5 μs |
| ClaudeTokenizerCounttokens | .NET 6.0 | .NET 6.0 | يخدع (...) ه. n [16926] | 1،143.9 μs |
| ClaudeTokenizerCounttokens | .NET 7.0 | .NET 7.0 | يخدع (...) ه. n [16926] | 711.3 μs |
النوافذ
BenchmarkDotNet v0.13.7, Windows 11 (10.0.22621.2134/22H2/2022Update/SunValley2)
Intel Core i7-9700K CPU 3.60GHz (Coffee Lake), 1 CPU, 8 logical and 8 physical cores
.NET SDK 7.0.400
[Host] : .NET 7.0.10 (7.0.1023.36312), X64 RyuJIT AVX2
.NET 6.0 : .NET 6.0.21 (6.0.2123.36311), X64 RyuJIT AVX2
.NET 7.0 : .NET 7.0.10 (7.0.1023.36312), X64 RyuJIT AVX2
| طريقة | وظيفة | وقت التشغيل | StringToenCode | يقصد |
|---|---|---|---|---|
| OpenaichatCompletionStokenizerencode | .NET 6.0 | .NET 6.0 | يخدع (...). r n [17157] | 1.270 مللي ثانية |
| OpenaichatCompletionStokenizerencode | .NET 7.0 | .NET 7.0 | يخدع (...). r n [17157] | 1.226 مللي ثانية |
| OpenaichatCompletionStokenizerCounttokens | .NET 6.0 | .NET 6.0 | يخدع (...). r n [17157] | 1.212 مللي ثانية |
| OpenaichatCompletionStokenizerCounttokens | .NET 7.0 | .NET 7.0 | يخدع (...). r n [17157] | 1.138 مللي ثانية |
| ClaudeTokenizerencode | .NET 6.0 | .NET 6.0 | يخدع (...). r n [17157] | 1.266 مللي ثانية |
| ClaudeTokenizerencode | .NET 7.0 | .NET 7.0 | يخدع (...). r n [17157] | 1.174 مللي ثانية |
| ClaudeTokenizerCounttokens | .NET 6.0 | .NET 6.0 | يخدع (...). r n [17157] | 1.242 مللي ثانية |
| ClaudeTokenizerCounttokens | .NET 7.0 | .NET 7.0 | يخدع (...). r n [17157] | 1.156 مللي ثانية |