flashinferのダウンロードflashinferソースコードのダウンロード

flashinfer

パイソン

v0.2.0.post1

ダウンロード

FlashInfer

LLMサービング用のカーネルライブラリ

FlashInferは、フラッシュアット、スパルシート、パジーテンション、サンプリングなど、LLM GPUカーネルの高性能実装を提供する大規模な言語モデル用のライブラリおよびカーネルジェネレーターです。 FlashInferはLLMのサービングと推論に焦点を当てており、多様なシナリオ全体で最先端のパフォーマンスを提供します。

新しい機能については、V0.2リリースブログを確認してください！

FlashInferのコア機能は次のとおりです。

効率的なスパース/濃い注意カーネル：CUDAコアとテンソルコア（FA2およびFA3の両方）テンプレート上のスパース（ページ）/密度のあるKVストレージの効率的なシングル/バッチ注意。ベクタースパーの注意は、同じ問題サイズの密なカーネルの帯域幅の90％を達成することができます。
負荷バランスのスケジューリング：フラッシュインファーは、 plan runで計画段階の計算をスケジュールして、 plan段階で変数長入力の計算をスケジュールして、負荷の均衡の問題を軽減するためにスケジュールします。
メモリ効率：FlashInferは、階層KVキャッシュにカスケードの注意を提供し、グループ化されたクエリの注意を促進するためのヘッドクエリ融合、および圧縮されたKVキャッシュの低精度の注意と融合ロープの注意のための効率的なカーネルを実装します。
カスタマイズ可能な注意：JITコンパイルを通して独自の注意バリアントをもたらします。
cudagraph and torch.compile互換性：Flashinferカーネルは、低遅延の推論のためにcudagraphsとtorch.compileによってキャプチャできます。
効率的なLLM固有の演算子：ソートを必要とせずに、トップP、トップK/MIN-Pサンプリング用の高性能融合カーネル。

FlashInferは、Pytorch、TVM、C ++（ヘッダーのみ）APIをサポートし、既存のプロジェクトに簡単に統合できます。

ニュース

[2024年12月16日]ブログ投稿フラッシュインファー0.2- LLM推論用の効率的でカスタマイズ可能なカーネル
[2024年9月] FlashInferユーザーと開発者向けのSlackワークスペースを立ち上げました。タイムリーなサポート、ディスカッション、更新、知識の共有にご参加ください！
[2024年1月31日]ブログ投稿カスケード推論：メモリ効率の高い共有プレフィックスバッチデコード
[2024年1月31日] FlashInferを使用したLLMサービスの自己承認を加速するブログ投稿

はじめる

Pytorch APIを使用することは、開始する最も簡単な方法です。

インストール

Linux用の事前に構築されたホイールを提供します。次のコマンドでFlashInferをインストールできます。

 # For CUDA 12.4 & torch 2.4
pip install flashinfer -i https://flashinfer.ai/whl/cu124/torch2.4
# For other CUDA & torch versions, please check https://docs.flashinfer.ai/installation.html

また、メインブランチから最新の機能を試すために、夜間に構築されたホイールも提供しています。

pip install flashinfer -i https://flashinfer.ai/whl/nightly/cu124/torch2.4

または、SourceからFlashInferを作成できます。

git clone https://github.com/flashinfer-ai/flashinfer.git --recursive
cd flashinfer
pip install -e . -v

デフォルトでは、FlashInferはカーネルにJust-in-Time（JIT）コンピレーションを使用します。必須カーネルを事前にコンパイルするには、インストールコマンドを実行する前に、環境変数FLASHINFER_ENABLE_AOT=1を設定します。

FLASHINFER_ENABLE_AOT=1 pip install -e . -v

詳細については、ソースドキュメントのインストールを参照してください。

試してみてください

以下は、Flashinferのシングルリクエストデコード/追加/Prefill注意カーネルを使用する最小限の例です。

 import torch
import flashinfer

kv_len = 2048
num_kv_heads = 32
head_dim = 128

k = torch . randn ( kv_len , num_kv_heads , head_dim ). half (). to ( 0 )
v = torch . randn ( kv_len , num_kv_heads , head_dim ). half (). to ( 0 )

# decode attention

num_qo_heads = 32
q = torch . randn ( num_qo_heads , head_dim ). half (). to ( 0 )

o = flashinfer . single_decode_with_kv_cache ( q , k , v ) # decode attention without RoPE on-the-fly
o_rope_on_the_fly = flashinfer . single_decode_with_kv_cache ( q , k , v , pos_encoding_mode = "ROPE_LLAMA" ) # decode with LLaMA style RoPE on-the-fly

# append attention
append_qo_len = 128
q = torch . randn ( append_qo_len , num_qo_heads , head_dim ). half (). to ( 0 ) # append attention, the last 128 tokens in the KV-Cache are the new tokens
o = flashinfer . single_prefill_with_kv_cache ( q , k , v , causal = True ) # append attention without RoPE on-the-fly, apply causal mask
o_rope_on_the_fly = flashinfer . single_prefill_with_kv_cache ( q , k , v , causal = True , pos_encoding_mode = "ROPE_LLAMA" ) # append attention with LLaMA style RoPE on-the-fly, apply causal mask

# prefill attention
qo_len = 2048
q = torch . randn ( qo_len , num_qo_heads , head_dim ). half (). to ( 0 ) # prefill attention
o = flashinfer . single_prefill_with_kv_cache ( q , k , v , causal = False ) # prefill attention without RoPE on-the-fly, do not apply causal mask

バッチデコード/付録/Prefillカーネルと共有Prefixカスケードカーネルの使用法のドキュメントをご覧ください。

ベンチマークを実行します

NVBenchを使用してFlashinferカーネルのパフォーマンスをプロファイルし、次のコマンドでベンチマークをコンパイルして実行できます。

mkdir build
cp cmake/config.cmake build # you can modify the config.cmake to enable/disable benchmarks and change CUDA architectures
cd build
cmake ..
make -j12

./bench_{single/batch}_{prefill/decode}を実行して、パフォーマンスをベンチマークします（シングルリケストのPrefillの注意のための./bench_single_prefillなど）。 ./bench_{single/batch}_{prefill/decode} --helpは、利用可能なオプションが表示されます。