
軽量で、稲妻が速く、あなたのテキストをチョンクする準備ができているナンセンスなぼろきれのライブラリ
インストール•使用法•サポートされている方法•ベンチマーク•ドキュメント•引用
だから私は自分が別のぼろきれボット(2342148番目に)を作っていることに気づき、その間、私たちがぼろきれのボットでチャンキングを使用する理由についてジュニアに説明しました。
依存症、膨満感、速度、またはその他の要因について心配する必要はありません。
さて、Chonkieでできます! (Chonkie BoiはGud Boiです)
機能が豊富:必要なすべてのチョンク
使いやすい:インストール、インポート、Chonk
fast速い:光の速度でチョンク! zooooom
幅広いサポート:お気に入りのトークナーチョンクをすべてサポートします
?軽量:膨満感はありません、ただチョンク
?かわいいチョンクマスコット:psstそれはピグミーカバです
Moto Motoのお気に入りのPythonライブラリ
何を待っていますか、ただチョンク!
Chonkieをインストールするには、単純に実行します。
pip install chonkie Chonkieは、最小限のdefualtインストールを行うためにルールに従い、ドキュメントを読んで必要なチャンカーのインストールを知るか、考えたくない場合はallインストールします(推奨されません)。
pip install chonkie[all]これがあなたを始めるための基本的な例です:
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )ドキュメント内で与えられたより多くの使用例
Chonkieは、RAGアプリケーションのためにテキストを効率的に分割するのに役立ついくつかのチャンカーを提供します。利用可能なチャンカーの簡単な概要は次のとおりです。
これらの方法とドキュメント内で取られたアプローチの詳細
「私はスモルバイポかもしれませんが、パンチを詰めます!」 ?
Chonkieがどのように機能するかを簡単に覗いてみましょう。
サイズ?
速度⚡
詳細なベンチマークをチェックして、Chonkieが競争を越えてどのように競っているかを確認してください! ?♂ ♂️?
Chonkieは、この図書館を今日のものにするのを手伝ってくれたすべてのユーザーと貢献者に特別な感謝を捧げたいと思います!あなたのフィードバック、発行レポート、および改善により、Chonkieがそれが可能性のあるものになるのに役立ちました。
そしてもちろん、彼の有名な引用でチョンキーを支持してくれたMoto Motoに感謝します:
「私は彼らが大きいのが好きです、私は彼らがチョンキーが好きです。」 〜Moto Moto
調査でChonkieを使用している場合は、次のように引用してください。
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}