
轻巧,闪电般的轻巧的抹布库,准备好您的文字
安装•用法•支持的方法•基准测试•文档•引文
因此,我发现自己在第2342148次(第2342148次)中制作了另一个抹布机器人,并向我的大三学生解释了为什么我们应该在抹布机器人中使用块,只是意识到我必须再次写入整个块,除非我使用blo blo的软件库X或极其功能的库y ,否则我为什么不能做任何东西。
我不能只是安装,导入和运行大块,而不必担心依赖性,膨胀,速度或其他因素?
好吧,有了chonkie! (Chonkie Boi是Gud Boi)
功能丰富:您需要的所有chonk
易于使用:安装,导入,chonk
⚡快速:以光的速度chonk! Zoooom
广泛的支持:支持您喜欢的所有最喜欢的令牌
?轻量重量:没有膨胀,只有chonk
?可爱的Chonk Mascot :PSST是侏儒河马
❤️MotoMoto的最喜欢的Python图书馆
你在等什么,只需chonk !
要安装Chonkie,只需运行:
pip install chonkie Chonkie遵循该规则的规则,即具有最少的虚假安装,阅读文档以了解您所需的成分的安装,或者如果您不想考虑它,则只需安装all安装(不建议使用)。
pip install chonkie[all]这是一个让您入门的基本示例:
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )文档中给出的更多示例用法
Chonkie提供了几个块,可帮助您有效地将文本分解为RAG应用程序。这是可用块的快速概述:
有关这些方法以及文档中采用的方法的更多信息
“我可能是Smol Hippo,但我打个拳!” ?
这是Chonkie表现的快速窥视:
尺寸?
速度⚡
查看我们的详细基准测试,以了解Chonkie如何超越比赛! ?♂️?
Chonkie想向所有用户和贡献者致以特别的感谢,这些用户和贡献者帮助了今天的图书馆!您的反馈,发行报告和改进有助于使Chonkie成为最大的选择。
当然,特别感谢Moto Moto向Chonkie认可他的著名报价:
“我喜欢他们,我喜欢他们。” 〜Moto Moto
如果您在研究中使用Chonkie,请如下引用:
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}