
가볍고 번개가 빠르며 텍스트를 조정할 준비가 된 말도 안되는 헝겊 청킹 라이브러리
설치 • 사용법 • 지원 방법 • 벤치 마크 • 문서 • 인용
그래서 나는 다른 헝겊 봇을 만들고 (2342148 시간), 한편, 우리가 헝겊 봇에 청킹을 사용해야하는 이유에 대해 설명하는 동안, 나는 부풀어 오른 소프트웨어 라이브러리 X 또는 매우 특징이없는 라이브러리를 사용하지 않는 한 다시 덩어리를 써야한다는 것을 깨닫기 위해 주니어들에게 설명했다.
단지 설치, 가져 오기 및 실행할 수 없으며 종속성, 부풀림, 속도 또는 기타 요인에 대해 걱정할 필요가 없습니까?
글쎄, Chonkie와 함께 할 수 있습니다! (Chonkie Boi는 Gud Boi입니다)
기능이 풍부한 : 필요한 모든 충격
사용하기 쉬운 : 설치, 가져 오기, Chonk
⚡ 빠른 : 빛의 속도로 Chonk! 동물원
광범위한 지원 : 좋아하는 토큰 화기 협회를 지원합니다
? 가벼운 중간 : 부풀어 오지 않고 그냥 chonk
? 귀여운 chonk 마스코트 : psst 그것은 피그미 하마 btw입니다
Moto Moto가 가장 좋아하는 파이썬 라이브러리
당신은 무엇을 기다리고 있습니까, 그냥 Chonk !
Chonkie를 설치하려면 간단히 실행하십시오.
pip install chonkie Chonkie는 규칙에 따라 최소한의 defualt 설치를하거나, Docs를 읽고, 필요한 청키의 설치를 알거나, 생각하고 싶지 않은 경우 all 설치하십시오 (권장하지 않음).
pip install chonkie[all]시작하는 기본 예는 다음과 같습니다.
# First import the chunker you want from Chonkie
from chonkie import TokenChunker
# Import your favorite tokenizer library
# Also supports AutoTokenizers, TikToken and AutoTikTokenizer
from tokenizers import Tokenizer
tokenizer = Tokenizer . from_pretrained ( "gpt2" )
# Initialize the chunker
chunker = TokenChunker ( tokenizer )
# Chunk some text
chunks = chunker ( "Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe." )
# Access chunks
for chunk in chunks :
print ( f"Chunk: { chunk . text } " )
print ( f"Tokens: { chunk . token_count } " )문서 내부에 제공된 더 많은 예제 사용
Chonkie는 RAG 응용 프로그램에 대한 텍스트를 효율적으로 나누는 데 도움이되는 여러 청키를 제공합니다. 다음은 사용 가능한 Chunkers에 대한 간단한 개요입니다.
이러한 방법과 문서 내부에서 취한 접근법에 대한 자세한 내용
"나는 Smol Hippo 일지 모르지만 펀치를 포장합니다!" ?
다음은 Chonkie의 수행 방식에 대한 간단한 엿보기입니다.
크기 ?
속도 ⚡
상세한 벤치 마크를 확인하여 Chonkie가 경쟁을지나 어떻게 경쟁하는지 확인하십시오! ? 대담추?
Chonkie는이 도서관을 오늘날로 만드는 데 도움을 준 모든 사용자와 기여자들에게 특별한 감사의 말을 전하고 싶습니다! 귀하의 의견, 발행 보고서 및 개선으로 인해 Chonkie가 Chonkeiest가 될 수있는 데 도움이되었습니다.
물론, 그의 유명한 인용문으로 Chonkie를 승인 한 Moto Moto에게 특별한 감사를드립니다.
"나는 그들을 크게 좋아한다. 나는 그들을 Chonkie를 좋아한다." ~ 모토 모토
연구에서 Chonkie를 사용하는 경우 다음과 같이 인용하십시오.
@misc{chonkie2024,
author = {Minhas, Bhavnick},
title = {Chonkie: A Fast Feature-full Chunking Library for RAG Bots},
year = {2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {url{https://github.com/bhavnick/chonkie}},
}