
Безуниверситетская библиотека, которая легкая, молниеносная и готовая, готова созвать ваши тексты
Установка • Использование • Поддерживаемые методы • ИСПРАВЛЕНИЯ • Документация • Цитирование
Поэтому я обнаружил, что делаю еще одного тряпичного бота (в 2342148-й раз), и тем временем, объясняя своим юниорам, почему мы должны использовать в наших тряпичных ботах, только чтобы понять, что мне придется писать все снова и снова, если я не использую раздутую библиотеку программного обеспечения или чрезвычайно без функциональных библиотеки Y. Почему я не могу что-то не правильно, UGH?
Разве я не могу просто установить, импортировать и запустить Chunking и не должен беспокоиться о зависимостях, раздутии, скорости или других факторах?
Ну, с Чонки вы можете! (Чонки Бой - Гуд Бой)
Богатые функции : все хонки, которые вам когда-либо понадобятся
Простой в использовании : установить, импортировать, чонк
⚡ Быстро : Чонк со скоростью света! Зоооом
Широкая поддержка : поддерживает все ваши любимые чоны токенизатора
? Светлый вес : без раздувания, просто чонк
? Милый талисман Chonk : PSST Это пигмейный бегемот, кстати, кстати
❤ любимая библиотека Python Moto Moto
Чего ты ждешь, просто будь это !
Чтобы установить Chonkie, просто запустите:
pip install chonkie Чонки следует за правилом, чтобы иметь минимальные установки Defualt, прочитайте документы, чтобы узнать установку для вашего необходимого кусочка, или просто установить all , если вы не хотите думать об этом (не рекомендуется).
pip install chonkie[all]Вот основной пример, чтобы начать вас:
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )Больше примеров использования, приведенных внутри документов
Chonkie предоставляет несколько Chunkers, чтобы помочь вам эффективно разделить ваш текст для тряпичных приложений. Вот краткий обзор доступных Chunkers:
Подробнее об этих методах и подходах, взятых внутри документов
"Я могу быть Smol Hippo, но я наложу удар!" ?
Вот быстро взглянуть на то, как работает Чонки:
Размер ?
Скорость ⚡
Проверьте наши подробные тесты, чтобы увидеть, как Чонки мчатся мимо соревнования! ? ♂️?
Чонки хотел бы пробиться благодаря особой благодарности всем пользователям и участникам, которые помогли сделать эту библиотеку тем, кем она является сегодня! Ваши отзывы, отчеты о выпуске и улучшения помогли сделать Чонки самым чертовым.
И, конечно же, особая благодарность Moto Moto за одобрение Чонки с его знаменитой цитатой:
«Они мне нравятся большие, они мне нравятся, чонки». ~ Moto Moto
Если вы используете Chonkie в своем исследовании, пожалуйста, укажите это следующим образом:
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}