flashinfer Download - flashinfer Code Source Download

flashinfer

Python

v0.2.0.post1

Télécharger

Flashinfer

Bibliothèque du noyau pour le service LLM

FlashInfer est une bibliothèque et un générateur de noyau pour les modèles de grands langues qui fournit une implémentation haute performance des noyaux GPU LLM tels que FlashAtttention, SparsEttension, PageAttension, échantillonnage, etc. FlashInfer se concentre sur le service et l'inférence LLM, et offre des performances de pointe dans divers scénarios.

Consultez notre blog V0.2 pour de nouvelles fonctionnalités!

Les caractéristiques principales de FlashInfer comprennent:

Efficient les noyaux d'attention clairsemés / denses : une attention efficace unique / lot pour les noyaux de KV clairsemés (paginés) / dense sur les noyaux CUDA et les noyaux de tenseur (FA2 et FA3). L'attention vectorielle peut atteindre 90% de la bande passante des noyaux denses avec la même taille de problème.
Planification équilibrée à chargement : FlashInfer Decouples plan / run de l'étape du calcul de l'attention où nous planifions le calcul des entrées de longueur variable à l'étape plan pour atténuer le problème de la charge de charge.
Efficacité de la mémoire : FlashInfer offre une attention en cascade pour le KV-Cache hiérique, et met en œuvre la fusion de la quête pour accélérer l'attention de la caiement groupé, et les noyaux efficaces pour l'attention à faible précision et l'attention de la corde fusionnée pour le KV-Cache comprimé.
Attention personnalisable : portez vos propres variantes d'attention grâce à la compilation JIT.
CUDAGRAPH et TORCH .
Opérateurs spécifiques à LLM efficaces : noyau fusionné haute performance pour l'échantillonnage Top-P, Top-K / Min-P sans avoir besoin de tri.

FlashInfer prend en charge les API Pytorch, TVM et C ++ (en tête uniquement) et peut être facilement intégrée dans les projets existants.

Nouvelles

[16 décembre 2024] Article de blog FlashInfer 0,2 - noyaux efficaces et personnalisables pour le service d'inférence LLM
[Sept 2024] Nous avons lancé un espace de travail Slack pour les utilisateurs et les développeurs FlashInfer. Rejoignez-nous pour un soutien en temps opportun, des discussions, des mises à jour et un partage des connaissances!
[31 janvier 2024] Article de blog Inférence Cascade: Décodage par lots de préfixe partagé économe en mémoire
[31 janvier 2024] Article de blog Accélération des auto-agents pour LLM servant avec FlashInfer

Commencer

L'utilisation de notre API Pytorch est le moyen le plus simple de commencer:

Installation

Nous fournissons des roues prédéfinies pour Linux. Vous pouvez installer FlashInfer avec la commande suivante:

 # For CUDA 12.4 & torch 2.4
pip install flashinfer -i https://flashinfer.ai/whl/cu124/torch2.4
# For other CUDA & torch versions, please check https://docs.flashinfer.ai/installation.html

Nous proposons également des roues nocturnes pour essayer les dernières fonctionnalités de la branche principale:

pip install flashinfer -i https://flashinfer.ai/whl/nightly/cu124/torch2.4

Alternativement, vous pouvez construire FlashInfer à partir de la source:

git clone https://github.com/flashinfer-ai/flashinfer.git --recursive
cd flashinfer
pip install -e . -v

Par défaut, FlashInfer utilise une compilation JIT-Time (JIT) pour ses noyaux. Pour pré-compiler les noyaux essentiels, définissez la variable d'environnement FLASHINFER_ENABLE_AOT=1 avant d'exécuter la commande d'installation:

FLASHINFER_ENABLE_AOT=1 pip install -e . -v

Pour plus de détails, reportez-vous à l'installation à partir de la documentation source.

Essayer

Vous trouverez ci-dessous un exemple minimal d'utilisation des noyaux d'attention de décodage / annexe / préfabrication de FlashInfer:

 import torch
import flashinfer

kv_len = 2048
num_kv_heads = 32
head_dim = 128

k = torch . randn ( kv_len , num_kv_heads , head_dim ). half (). to ( 0 )
v = torch . randn ( kv_len , num_kv_heads , head_dim ). half (). to ( 0 )

# decode attention

num_qo_heads = 32
q = torch . randn ( num_qo_heads , head_dim ). half (). to ( 0 )

o = flashinfer . single_decode_with_kv_cache ( q , k , v ) # decode attention without RoPE on-the-fly
o_rope_on_the_fly = flashinfer . single_decode_with_kv_cache ( q , k , v , pos_encoding_mode = "ROPE_LLAMA" ) # decode with LLaMA style RoPE on-the-fly

# append attention
append_qo_len = 128
q = torch . randn ( append_qo_len , num_qo_heads , head_dim ). half (). to ( 0 ) # append attention, the last 128 tokens in the KV-Cache are the new tokens
o = flashinfer . single_prefill_with_kv_cache ( q , k , v , causal = True ) # append attention without RoPE on-the-fly, apply causal mask
o_rope_on_the_fly = flashinfer . single_prefill_with_kv_cache ( q , k , v , causal = True , pos_encoding_mode = "ROPE_LLAMA" ) # append attention with LLaMA style RoPE on-the-fly, apply causal mask

# prefill attention
qo_len = 2048
q = torch . randn ( qo_len , num_qo_heads , head_dim ). half (). to ( 0 ) # prefill attention
o = flashinfer . single_prefill_with_kv_cache ( q , k , v , causal = False ) # prefill attention without RoPE on-the-fly, do not apply causal mask

Consultez la documentation pour l'utilisation des noyaux de décodage / annexe / préfilleurs et des noyaux en cascade de préfixe partagé.

Faire des références

Nous profilons les performances du noyau FlashInfer avec NVBench et vous pouvez compiler et exécuter les repères avec les commandes suivantes:

mkdir build
cp cmake/config.cmake build # you can modify the config.cmake to enable/disable benchmarks and change CUDA architectures
cd build
cmake ..
make -j12

Vous pouvez exécuter ./bench_{single/batch}_{prefill/decode} ./bench_single_prefill ./bench_{single/batch}_{prefill/decode} --help