
Die sachliche Bibliothek, die leicht, leichter, blitzschnell und bereit ist, Ihre Texte zu chonkieren
Installation • Verwendung • Unterstützte Methoden • Benchmarks • Dokumentation • Zitat
Also machte ich einen weiteren Rag-Bot (zum 2342148. Mal) und erklärte meinen Junioren, warum wir in unseren Rag-Bots einstechen sollten, nur um zu erkennen, dass ich das Chunking noch einmal schreiben müsste, es sei denn, ich benutze die aufgeblähte Software-Bibliothek x oder die extrem featurelosen Bibliothek.
Kann ich nicht einfach das Knüpfen installieren, importieren und ausführen und mich nicht um Abhängigkeiten, Blähungen, Geschwindigkeit oder andere Faktoren sorgen müssen?
Nun, mit Chonkie kannst du! (Chonkie Boi ist ein Gud Boi)
Feature-Rich : Alle Chonks, die Sie jemals brauchen würden
Einfach zu bedienen : installieren, importieren, chonk
⚡ Schnell : Chonk mit Lichtgeschwindigkeit! Zooooom
Große Unterstützung : Unterstützt alle Ihre Lieblings -Tokenizer -Chonks
? Leichtes Gewicht : Kein Aufblähen, nur Chonk
? Nettes Chonk -Maskottchen : Psst es ist ein Pygmy -Hippo übrigens
❤️ Moto Motos Lieblings -Python -Bibliothek
Worauf warten Sie noch, chonk es !
Um Chonkie zu installieren, rennen Sie einfach:
pip install chonkie Chonkie folgt der Regel, um minimale Defualt -Installationen zu haben, die Dokumente zu lesen, um die Installation für Ihren erforderlichen Chunker zu kennen oder einfach all zu installieren, wenn Sie nicht darüber nachdenken möchten (nicht empfohlen).
pip install chonkie[all]Hier ist ein grundlegendes Beispiel, um Ihnen den Einstieg zu erleichtern:
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )Weitere Beispielversagen in den Dokumenten
Chonkie stellt mehrere Chunker zur Verfügung, die Ihnen helfen, Ihren Text effizient für Lappenanwendungen aufzuteilen. Hier finden Sie einen kurzen Überblick über die verfügbaren Chunker:
Mehr zu diesen Methoden und den in den Dokumenten verfolgten Ansätzen
"Ich mag Smol Hippo sein, aber ich packe einen Schlag!" ?
Hier ist ein kurzer Blick darauf, wie Chonkie auftritt:
Größe ?
Geschwindigkeit ⚡
Schauen Sie sich unsere detaillierten Benchmarks an, um zu sehen, wie Chonkie an der Konkurrenz vorbei rennt! ? Eitung?
Chonkie möchte sich bei allen Benutzern und Mitwirkenden, die diese Bibliothek dazu gebracht haben, zu dem, was sie heute ist, einen besonderen Dank zu machen! Ihr Feedback, Ihre Ausgabeberichte und Ihre Verbesserungen haben dazu beigetragen, dass Chonkie das chonkieste sein kann.
Und natürlich danke Moto Moto für die Unterstützung von Chonkie mit seinem berühmten Zitat:
"Ich mag sie groß, ich mag sie, Chonkie." ~ Moto Moto
Wenn Sie Chonkie in Ihrer Recherche verwenden, zitieren Sie es bitte wie folgt:
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}