Download do jtokkit - jtokkit Código fonte download

jtokkit

Outro código-fonte

1.1.0

Baixar

JTOKKIT - Kit de Tokenizer Java

Bem -vindo ao Jtokkit, uma biblioteca de tokenizer Java projetada para uso com os modelos OpenAI.

 EncodingRegistry registry = Encodings . newDefaultEncodingRegistry ();
Encoding enc = registry . getEncoding ( EncodingType . CL100K_BASE );
assertEquals ( "hello world" , enc . decode ( enc . encode ( "hello world" )));

// Or get the tokenizer corresponding to a specific OpenAI model
enc = registry . getEncodingForModel ( ModelType . TEXT_EMBEDDING_ADA_002 );

Investir rápido

Para começar rapidamente, consulte nossa documentação.

Introdução

O JTOKKIT pretende ser um tokenizador rápido e eficiente, projetado para uso em tarefas de processamento de linguagem natural usando os modelos OpenAI. Ele fornece uma interface fácil de usar para o texto de entrada de tokenização, por exemplo, para a contagem de tokens necessários na preparação de solicitações para o modelo GPT-3.5. Essa biblioteca resultou da necessidade de ter capacidades semelhantes no ecossistema da JVM, pois a biblioteca que Tiktoken fornece para o Python.

? Características

✅ Implementos de codificação e decodificação via r50k_base , p50k_base , p50k_edit , cl100k_base e o200k_base

✅ API fácil de usar

✅ Extensibilidade fácil para algoritmos de codificação personalizada

✅ Dependências zero

✅ suporta Java 8 e acima

✅ Desempenho rápido e eficiente

Desempenho

O JTOKKIT é entre 2-3 vezes mais rápido que um tokenizador comparável.

Para detalhes sobre a referência, consulte o diretório de referência.

Instalação

Você pode instalar o JTOKKIT adicionando a seguinte dependência ao seu projeto MAVEN:

< dependency >
    < groupId >com.knuddels</ groupId >
    < artifactId >jtokkit</ artifactId >
    < version >1.1.0</ version >
</ dependency >

Ou alternativamente usando o gradle:

dependencies {
    implementation ' com.knuddels:jtokkit:1.1.0 '
}

? Começando

Para usar o JTOKKIT, basta criar um novo EncodingRegistry e usar getEncoding para recuperar a codificação que você deseja usar. Você pode usar os métodos encode e decode para codificar e decodificar o texto.

 EncodingRegistry registry = Encodings . newDefaultEncodingRegistry ();
Encoding enc = registry . getEncoding ( EncodingType . CL100K_BASE );
IntArrayList encoded = enc . encode ( "This is a sample sentence." );
// encoded = [2028, 374, 264, 6205, 11914, 13]
        
String decoded = enc . decode ( encoded );
// decoded = "This is a sample sentence."

// Or get the tokenizer based on the model type
Encoding secondEnc = registry . getEncodingForModel ( ModelType . TEXT_EMBEDDING_ADA_002 );
// enc == secondEnc

As classes EncodingRegistry e Encoding são seguras de threads e podem ser compartilhadas gratuitamente entre os componentes.

➰ Estendendo o JTOKKIT

Você pode estender o JTOKKit para suportar codificações personalizadas. Para fazer isso, você tem duas opções:

Implemente a interface Encoding e registre -a no EncodingRegistry

 EncodingRegistry registry = Encodings . newDefaultEncodingRegistry ();
Encoding customEncoding = new CustomEncoding ();
registry . registerEncoding ( customEncoding );

Adicione novos parâmetros para uso com o algoritmo BPE existente

 EncodingRegistry registry = Encodings . newDefaultEncodingRegistry ();
GptBytePairEncodingParams params = new GptBytePairEncodingParams (
        "custom-name" ,
        Pattern . compile ( "some custom pattern" ),
        encodingMap ,
        specialTokenEncodingMap
);
registry . registerGptBytePairEncoding ( params );

Posteriormente, você pode usar as codificações personalizadas juntamente com as padrão e acessá-las usando registry.getEncoding("custom-name") . Veja o Javadoc para obter mais detalhes.

? Licença

O JTOKKIT está licenciado sob a licença do MIT. Consulte o arquivo de licença para obter mais informações.

Expandir

Informações adicionais

Versão 1.1.0
Tipo Outro código-fonte
Data da Última Atualização 2025-03-01
tamanho 3.69MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos