
輕巧,閃電般的輕巧的抹布庫,準備好您的文字
安裝•用法•支持的方法•基準測試•文檔•引文
因此,我發現自己在第2342148次(第2342148次)中製作了另一個抹布機器人,並向我的大三學生解釋了為什麼我們應該在抹布機器人中使用塊,只是意識到我必須再次寫入整個塊,除非我使用blo blo的軟件庫X或極其功能的庫y ,否則我為什麼不能做任何東西。
我不能只是安裝,導入和運行大塊,而不必擔心依賴性,膨脹,速度或其他因素?
好吧,有了chonkie! (Chonkie Boi是Gud Boi)
功能豐富:您需要的所有chonk
易於使用:安裝,導入,chonk
⚡快速:以光的速度chonk! Zoooom
廣泛的支持:支持您喜歡的所有最喜歡的令牌
?輕量重量:沒有膨脹,只有chonk
?可愛的Chonk Mascot :PSST是侏儒河馬
❤️MotoMoto的最喜歡的Python圖書館
你在等什麼,只需chonk !
要安裝Chonkie,只需運行:
pip install chonkie Chonkie遵循該規則的規則,即具有最少的虛假安裝,閱讀文檔以了解您所需的成分的安裝,或者如果您不想考慮它,則只需安裝all安裝(不建議使用)。
pip install chonkie[all]這是一個讓您入門的基本示例:
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )文檔中給出的更多示例用法
Chonkie提供了幾個塊,可幫助您有效地將文本分解為RAG應用程序。這是可用塊的快速概述:
有關這些方法以及文檔中採用的方法的更多信息
“我可能是Smol Hippo,但我打個拳!” ?
這是Chonkie表現的快速窺視:
尺寸?
速度⚡
查看我們的詳細基準測試,以了解Chonkie如何超越比賽! ?♂️?
Chonkie想向所有用戶和貢獻者致以特別的感謝,這些用戶和貢獻者幫助了今天的圖書館!您的反饋,發行報告和改進有助於使Chonkie成為最大的選擇。
當然,特別感謝Moto Moto向Chonkie認可他的著名報價:
“我喜歡他們,我喜歡他們。” 〜Moto Moto
如果您在研究中使用Chonkie,請如下引用:
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}