
La bibliothèque de Chunking de chiffon sans file
Installation • Utilisation • Méthodes prises en charge • Benchmarks • Documentation • Citation
Je me suis donc retrouvé à faire un autre bot de chiffon (pour la 2342148th) et en attendant, expliquant à mes juniors pourquoi nous devrions utiliser du morceau dans nos robots de chiffon, seulement pour réaliser que je devrais écrire à nouveau le chunking à moins que je puisse utiliser la bibliothèque logicielle gonflée x ou la bibliothèque extrêmement sans fonctionnalité Y. Pourquoi ne puis-je pas avoir quelque chose de bien, Ugh?
Je ne peux pas simplement installer, importer et exécuter un morceau et ne pas avoir à me soucier des dépendances, du ballonnement, de la vitesse ou d'autres facteurs?
Eh bien, avec Chonkie, vous pouvez! (Chonkie Boi est un boi gud)
Riche en fonctionnalités : toutes les chones dont vous auriez besoin
Facile à utiliser : installer, importer, chonk
⚡ Rapide : Chonk à la vitesse de la lumière! zooooom
Support large : prend en charge toutes vos tokenizer préférées
? Poids léger : pas de ballonnement, juste chonk
? Mignon de Chonk Mascot : PSST c'est un hippo pygmée btw
Bibliothèque Python préférée de Moto Moto Moto
Qu'attendez-vous, il suffit de le faire !
Pour installer Chonkie, exécutez simplement:
pip install chonkie Chonkie suit la règle pour avoir des installations défuntt minimales, lire les documents pour connaître l'installation de votre chunker requis, ou simplement installer all si vous ne voulez pas y penser (pas recommandé).
pip install chonkie[all]Voici un exemple de base pour vous aider à démarrer:
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )Plus d'exemples d'utilisations données à l'intérieur des documents
Chonkie fournit plusieurs morceaux pour vous aider à diviser efficacement votre texte pour les applications de chiffon. Voici un aperçu rapide des Chunkers disponibles:
En savoir plus sur ces méthodes et les approches adoptées à l'intérieur des documents
"Je suis peut-être Smol Hippo, mais je fais un coup de poing!" ?
Voici un rapide coup d'œil sur la façon dont Chonkie fonctionne:
Taille ?
Vitesse ⚡
Découvrez nos références détaillées pour voir comment Chonkie passe devant la compétition! ? ️?
Chonkie aimerait se frayer un chemin à travers un merci spécial à tous les utilisateurs et contributeurs qui ont aidé à faire de cette bibliothèque ce qu'elle est aujourd'hui! Vos commentaires, vos rapports de problèmes et vos améliorations ont contribué à faire de Chonkie la plus élégante.
Et bien sûr, un merci spécial à Moto Moto pour avoir approuvé Chonkie avec sa célèbre citation:
"Je les aime gros, je les aime Chonkie." ~ Moto Moto
Si vous utilisez Chonkie dans vos recherches, veuillez le citer comme suit:
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}