
Perpustakaan Chunking Rag No-Ben-Benci yang ringan, cepat kilat, dan siap untuk Chonk Teks Anda
Instalasi • Penggunaan • Metode yang Didukung • Tolok Ukur • Dokumentasi • Kutipan
Jadi saya mendapati diri saya membuat bot lap lain (untuk 2342148 kalinya) dan sementara itu, menjelaskan kepada junior saya tentang mengapa kita harus menggunakan chunking di bot kain kami, hanya untuk menyadari bahwa saya harus menulis chunking lagi kecuali saya menggunakan Perpustakaan Perangkat Lunak yang membengkak atau perpustakaan yang sangat fitur Y. Mengapa saya tidak memiliki sesuatu yang tepat,
Tidak bisakah saya menginstal, mengimpor, dan menjalankan chunking dan tidak perlu khawatir tentang ketergantungan, kembung, kecepatan atau faktor lainnya?
Nah, dengan Chonkie Anda bisa! (Chonkie Boi adalah Gud Boi)
Fitur-kaya : Semua chonks yang pernah Anda butuhkan
Mudah digunakan : instal, impor, chonk
⚡ Cepat : Chonk dengan kecepatan cahaya! Zooooom
Dukungan Luas : Mendukung Semua Tokenizer Chonks Favorit Anda
? Light-weight : tidak kembung, hanya chonk
? Cute Chonk Mascot : psst Ini adalah kuda nil kerdil btw
❤️ Perpustakaan Python favorit Moto Moto
Apa yang Anda tunggu, cukup chonk !
Untuk menginstal Chonkie, cukup jalankan:
pip install chonkie Chonkie mengikuti aturan untuk memiliki pemasangan defualt minimal, baca dokumen untuk mengetahui instalasi untuk chunker yang Anda wajib, atau cukup instal all jika Anda tidak ingin memikirkannya (tidak disarankan).
pip install chonkie[all]Inilah contoh dasar untuk memulai:
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )Lebih banyak contoh penggunaan yang diberikan di dalam dokumen
Chonkie menyediakan beberapa chunker untuk membantu Anda membagi teks Anda secara efisien untuk aplikasi RAG. Berikut gambaran cepat dari chunker yang tersedia:
Lebih lanjut tentang metode ini dan pendekatan yang diambil di dalam dokumen
"Aku mungkin smol hippo, tapi aku memukul!" ?
Berikut ini mengintip bagaimana kinerja Chonkie:
Ukuran ?
Kecepatan ⚡
Lihatlah tolok ukur terperinci kami untuk melihat bagaimana Chonkie berlomba melewati kompetisi! ? ♂️?
Chonkie ingin membagikan jalannya melalui terima kasih khusus kepada semua pengguna dan kontributor yang telah membantu menjadikan perpustakaan ini seperti sekarang ini! Umpan balik Anda, laporan masalah, dan perbaikan telah membantu menjadikan Chonkie yang paling chonkiest.
Dan tentu saja, terima kasih khusus kepada Moto Moto untuk mendukung Chonkie dengan kutipannya yang terkenal:
"Aku suka mereka besar, aku suka mereka Chonkie." ~ Moto Moto
Jika Anda menggunakan Chonkie dalam penelitian Anda, silakan kutip sebagai berikut:
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}