
La biblioteca de chunking de trapo sin sentido que es liviana, rayo y lista para hacer tus textos
Instalación • Uso • Métodos compatibles • puntos de referencia • Documentación • Cita
Así que me encontré haciendo otro bot de trapo (para la vez 2342148) y, mientras tanto, explicé a mis juniors sobre por qué deberíamos usar Chunking en nuestros bots de trapo, solo para darme cuenta de que tendría que escribir una cita de nuevo a menos que use la biblioteca de software hinchada X o la biblioteca extremadamente sin características Y.
¿No puedo simplemente instalar, importar y ejecutar fragmentos y no tener que preocuparme por las dependencias, la hinchazón, la velocidad u otros factores?
Bueno, ¡con Chonkie puedes! (Chonkie Boi es un Gud Boi)
Rich : todos los chonks que necesitarías
Fácil de usar : instalar, importar, chonk
⚡ Rápido : ¡Chonk a la velocidad de la luz! zoológico
Buque de soporte : admite todos sus chonks de tokenizer favoritos
? Ligero : sin hinchazón, solo chonk
? Linda mascota de Chonk : psst es un hipopótamo pigmeo por cierto
❤️ Biblioteca de pitón favorita de Moto Moto
¡Qué estás esperando, solo pégalo !
Para instalar Chonkie, simplemente ejecute:
pip install chonkie Chonkie sigue la regla para tener instalaciones mínimas de Defualt, lea los documentos para conocer la instalación de su quunor requerido, o simplemente instalar all si no desea pensar en ello (no recomendado).
pip install chonkie[all]Aquí hay un ejemplo básico para comenzar:
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )Más usos de ejemplo dados dentro de los documentos
Chonkie ofrece varios chunkers para ayudarlo a dividir su texto de manera eficiente para aplicaciones de RAG. Aquí hay una visión general rápida de los chunkers disponibles:
Más sobre estos métodos y los enfoques tomados dentro de los documentos
"Puede que sea Smol Hippo, ¡pero tengo un golpe!" ?
Aquí hay un vistazo rápido a cómo se desempeña Chonkie:
Tamaño ?
Velocidad ⚡
¡Mira nuestros puntos de referencia detallados para ver cómo Chonkie corre más allá de la competencia! ? ️?
¡A Chonkie le gustaría avanzar en un agradecimiento especial a todos los usuarios y contribuyentes que han ayudado a hacer de esta biblioteca lo que es hoy! Sus comentarios, informes de emisión y mejoras han ayudado a hacer de Chonkie lo más Chonkie que puede ser.
Y, por supuesto, un agradecimiento especial a Moto Moto por respaldar a Chonkie con su famosa cita:
"Me gustan grandes, me gustan Chonkie". ~ Moto Moto
Si usa Chonkie en su investigación, cíquelo de la siguiente manera:
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}