
A biblioteca de chunking de pano sem sentido que é leve, um raio-de-raio e pronto para Chonk seus textos
Instalação • Uso • Métodos suportados • Benchmarks • Documentação • Citação
Então, eu me vi fazendo outro bot de trapo (pela 2342148ª vez) e, enquanto isso, explicando aos meus juniores sobre por que devemos usar o Chunking em nossos bots de trapo, apenas para perceber que eu teria que escrever chunking tudo de novo, a menos que eu use a biblioteca de software inchada x ou a biblioteca extremamente sem recurso, por que não tenho algo certo, apenas, não tenho algo correto, só que eu não tenha algo, não tenho algo, a menos que eu use a biblioteca X ou a biblioteca extremamente sem recurso, por que não tenho algo certo, apenas, não tenho algo certo, só que não tenha algo, não tenho algo que não tenha algo, a menos que eu use a biblioteca de software e a biblioteca extremamente sem recurso.
Não posso simplesmente instalar, importar e executar chunking e não preciso se preocupar com dependências, inchaço, velocidade ou outros fatores?
Bem, com Chonkie você pode! (Chonkie Boi é um gud boi)
Rico em recursos : todos os chonks que você precisaria
Fácil de usar : instalar, importar, chonk
⚡ Fast : Chonk na velocidade da luz! Zooooom
Suporte amplo : suporta todo o seu tokenizer favorito Chonks
? Leve : sem inchaço, apenas chonk
? Mascote chonk fofo : psst é um hipopótamo pygmy btw
❤️ Biblioteca Python favorita de Moto Moto
O que você está esperando, apenas chonk !
Para instalar Chonkie, basta executar:
pip install chonkie Chonkie segue a regra para ter instalações mínimas de defualt, leia os documentos para conhecer a instalação para o seu Chunker necessário ou simplesmente instalar all se você não quiser pensar sobre isso (não recomendado).
pip install chonkie[all]Aqui está um exemplo básico para você começar:
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )Mais exemplos de usos dados dentro dos documentos
Chonkie fornece vários pedaços para ajudá -lo a dividir seu texto com eficiência em aplicações de trapos. Aqui está uma rápida visão geral dos Chunkers disponíveis:
Mais sobre esses métodos e as abordagens adotadas dentro dos documentos
"Eu posso ser Smol Hippo, mas dou um soco!" ?
Aqui está uma olhada rápida com o desempenho de Chonkie:
Tamanho ?
Velocidade ⚡
Confira nossos benchmarks detalhados para ver como Chonkie corre após a competição! ? ♂️?
Chonkie gostaria de Chonk em um agradecimento especial a todos os usuários e colaboradores que ajudaram a tornar essa biblioteca o que é hoje! Seus comentários, relatórios de problemas e melhorias ajudaram a tornar Chonkie o mais chonkkiest que pode ser.
E, claro, agradecimentos especiais a Moto Moto por endossar Chonkie com sua famosa citação:
"Eu gosto deles, eu gosto deles Chonkie." ~ Moto Moto
Se você usar o Chonkie em sua pesquisa, cite o seguinte:
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}