ดาวน์โหลด flashinfer - ดาวน์โหลดซอร์สโค้ด flashinfer

flashinfer

หลาม

v0.2.0.post1

ดาวน์โหลด

flashinfer

ห้องสมุดเคอร์เนลสำหรับการให้บริการ LLM

- บล็อก | เอกสาร หย่อน | ฟอรัมสนทนา |

FlashInfer เป็นเครื่องกำเนิดห้องสมุดและเคอร์เนลสำหรับรุ่นภาษาขนาดใหญ่ที่ให้การใช้งานที่มีประสิทธิภาพสูงของเมล็ด GPU LLM เช่น Flashattention, Sparsittention, Pageattention, การสุ่มตัวอย่างและอื่น ๆ FlashInfer มุ่งเน้นไปที่การให้บริการ LLM และการอนุมานและมอบประสิทธิภาพที่ล้ำสมัยในสถานการณ์ที่หลากหลาย

ตรวจสอบบล็อกการเปิดตัว V0.2 ของเราสำหรับคุณสมบัติใหม่!

คุณสมบัติหลักของ FlashInfer ได้แก่ :

เมล็ดที่มีประสิทธิภาพเบาบาง/หนาแน่น : ความสนใจเดี่ยว/แบทช์ที่มีประสิทธิภาพสำหรับการจัดเก็บ KV แบบเบาบาง (เพจ)/ความหนาแน่น KV ในแกน CUDA และแกนเทนเซอร์ (ทั้ง FA2 & FA3) แม่แบบ ความสนใจของเวกเตอร์-สปาร์สสามารถบรรลุ 90% ของแบนด์วิดท์ของเมล็ดหนาแน่นที่มีขนาดปัญหาเท่ากัน
การกำหนดเวลาโหลดที่สมดุล : FlashInfer decouples plan / run ขั้นตอนของการคำนวณความสนใจซึ่งเรากำหนดเวลาการคำนวณอินพุตความยาวตัวแปรในขั้นตอน plan เพื่อบรรเทาปัญหาการโหลดความสมดุล
ประสิทธิภาพของหน่วยความจำ : FlashInfer ให้ความสนใจแบบเรียงซ้อนสำหรับ KV-cache แบบลำดับชั้นและใช้ฟิวชั่นแบบหัวสำหรับการเร่งความสนใจแบบกลุ่มและเมล็ดที่มีประสิทธิภาพสำหรับความสนใจที่มีความแม่นยำต่ำ
ความสนใจที่ปรับแต่งได้ : นำความสนใจของคุณเองผ่านการคอมไพล์ JIT
Cudagraph และ Torch ความเข้ากันได้แบบคอมไพล์ : เคอร์เนล flashinfer สามารถจับได้โดย cudagraphs และคบเพลิง compile สำหรับการอนุมานความหน่วงต่ำ
ผู้ให้บริการเฉพาะ LLM ที่มีประสิทธิภาพ : เคอร์เนลที่หลอมรวมประสิทธิภาพสูงสำหรับการสุ่มตัวอย่าง Top-P, K/Min-P โดยไม่จำเป็นต้องเรียงลำดับ

FlashInfer รองรับ Pytorch, TVM และ C ++ (ส่วนหัวเท่านั้น) APIs และสามารถรวมเข้ากับโครงการที่มีอยู่ได้อย่างง่ายดาย

ข่าว

[16 ธ.ค. , 2024] บล็อกโพสต์ FlashInfer 0.2 - เมล็ดที่มีประสิทธิภาพและปรับแต่งได้สำหรับการอนุมาน LLM
[ก.ย. 2024] เราได้เปิดตัว Slack Workspace สำหรับผู้ใช้ FlashInfer และนักพัฒนา เข้าร่วมกับเราสำหรับการสนับสนุนการอภิปรายการอัพเดทและการแบ่งปันความรู้ที่ทันเวลา!
[31 ม.ค. 2024] บล็อกโพสต์การอนุมาน: การถอดรหัสชุดคำนำหน้าหน่วยความจำที่ใช้ร่วมกันอย่างมีประสิทธิภาพ
[31 ม.ค. 2024] บล็อกโพสต์เร่งการตอบสนองตนเองสำหรับ LLM ที่ให้บริการกับ Flashinfer

เริ่มต้น

การใช้ Pytorch API ของเราเป็นวิธีที่ง่ายที่สุดในการเริ่มต้น:

การติดตั้ง

เราให้บริการล้อ prebuilt สำหรับ linux คุณสามารถติดตั้ง FlashInfer ด้วยคำสั่งต่อไปนี้:

 # For CUDA 12.4 & torch 2.4
pip install flashinfer -i https://flashinfer.ai/whl/cu124/torch2.4
# For other CUDA & torch versions, please check https://docs.flashinfer.ai/installation.html

นอกจากนี้เรายังนำเสนอล้อที่สร้างขึ้นทุกคืนเพื่อลองคุณสมบัติล่าสุดจากสาขาหลัก:

pip install flashinfer -i https://flashinfer.ai/whl/nightly/cu124/torch2.4

หรือคุณสามารถสร้าง flashinfer จากแหล่งที่มา:

git clone https://github.com/flashinfer-ai/flashinfer.git --recursive
cd flashinfer
pip install -e . -v

โดยค่าเริ่มต้น FlashInfer ใช้การรวบรวมแบบทันเวลา (JIT) สำหรับเคอร์เนล หากต้องการทำการควบคุมเมล็ดพันธุ์ที่จำเป็นล่วงหน้าให้ตั้งค่าตัวแปรสภาพแวดล้อม FLASHINFER_ENABLE_AOT=1 ก่อนเรียกใช้คำสั่งการติดตั้ง:

FLASHINFER_ENABLE_AOT=1 pip install -e . -v

สำหรับรายละเอียดเพิ่มเติมโปรดดูที่การติดตั้งจากเอกสารต้นฉบับ

ลองใช้

ด้านล่างนี้เป็นตัวอย่างที่น้อยที่สุดของการใช้เคอร์เนลการถอดรหัส/เสริม/เสริม/prefill ความสนใจของ FlashInfer:

 import torch
import flashinfer

kv_len = 2048
num_kv_heads = 32
head_dim = 128

k = torch . randn ( kv_len , num_kv_heads , head_dim ). half (). to ( 0 )
v = torch . randn ( kv_len , num_kv_heads , head_dim ). half (). to ( 0 )

# decode attention

num_qo_heads = 32
q = torch . randn ( num_qo_heads , head_dim ). half (). to ( 0 )

o = flashinfer . single_decode_with_kv_cache ( q , k , v ) # decode attention without RoPE on-the-fly
o_rope_on_the_fly = flashinfer . single_decode_with_kv_cache ( q , k , v , pos_encoding_mode = "ROPE_LLAMA" ) # decode with LLaMA style RoPE on-the-fly

# append attention
append_qo_len = 128
q = torch . randn ( append_qo_len , num_qo_heads , head_dim ). half (). to ( 0 ) # append attention, the last 128 tokens in the KV-Cache are the new tokens
o = flashinfer . single_prefill_with_kv_cache ( q , k , v , causal = True ) # append attention without RoPE on-the-fly, apply causal mask
o_rope_on_the_fly = flashinfer . single_prefill_with_kv_cache ( q , k , v , causal = True , pos_encoding_mode = "ROPE_LLAMA" ) # append attention with LLaMA style RoPE on-the-fly, apply causal mask

# prefill attention
qo_len = 2048
q = torch . randn ( qo_len , num_qo_heads , head_dim ). half (). to ( 0 ) # prefill attention
o = flashinfer . single_prefill_with_kv_cache ( q , k , v , causal = False ) # prefill attention without RoPE on-the-fly, do not apply causal mask

ตรวจสอบเอกสารประกอบสำหรับการใช้งานชุด DECODE/APPEND/PREFILL KERNES และเมล็ดที่ใช้ร่วมกัน

ใช้เกณฑ์มาตรฐาน

เราโปรไฟล์ประสิทธิภาพเคอร์เนล FlashInfer ด้วย NVBench และคุณสามารถรวบรวมและเรียกใช้มาตรฐานด้วยคำสั่งต่อไปนี้:

mkdir build
cp cmake/config.cmake build # you can modify the config.cmake to enable/disable benchmarks and change CUDA architectures
cd build
cmake ..
make -j12

คุณสามารถเรียกใช้ ./bench_{single/batch}_{prefill/decode} เพื่อเปรียบเทียบประสิทธิภาพ (เช่น ./bench_single_prefill bench_single_prefill สำหรับความสนใจแบบล่วงหน้า ./bench_{single/batch}_{prefill/decode} --help จะแสดงตัวเลือกที่มีอยู่ให้คุณ