kernlダウンロードkernlソースコードのダウンロード

kernl

パイソン

v0.2.2

ダウンロード

Kernlでは、Pytorchトランスモデルを単一のコードを使用してGPUで数倍速く実行でき、簡単にハッキングできるように設計されています。

ベンチマークは3090 RTXで実行されました

Kernlは、最初に書かれたOSS推論エンジンです~~cuda c~~ Openai Tritonは、GPUカーネルの書きやすくするためにOpenaiによって設計された新しい言語です。
各カーネルは200行未満のコードであり、理解して修正しやすいです。

チュートリアル - エンドツーエンドユースケース

例のリストには、PytorchでKernlを使用する方法が含まれています。

トピック	ノート
タイル張られたマトムール： `CUDA`スタイルのマトリックス乗算実装	リンク
Matmul Offsets ：Triton Matmulの実装で使用されるパフォーマンストリックに関連する詳細な説明	リンク
オンラインソフトマックス：並列化されたソフトマックス計算、 `Flash Attention`の重要な成分	リンク
`Flash Attention` ：注意マトリックスをグローバルメモリに保存せずに注意計算	リンク
XNLI分類：最適化の /なしで分類（ `Roberta` + `XNLI`分類タスク）	リンク
テキスト生成：最適化の有無（ `T5` ）	リンク
転写生成：最適化の有無（ `Whisper` ）	リンク
** llamaバージョン2カーネルフュージョンによる最適化	リンク

インストール

重要：このパッケージでは、 pytorchをインストールする必要があります。
最初にインストールしてください。

pip install ' git+https://github.com/ELS-RD/kernl '
# or for local dev, after git clone ...
pip install -e .

このプロジェクトでは、 Python > = 3.9が必要です。さらに、ライブラリでは、アンペアGPUとCUDAをインストールする必要があります。

Docker好む場合：

 # build
DOCKER_BUILDKIT=1 docker build -t kernl .
# run
docker run --rm -it --gpus all -v $( pwd ) :/kernl kernl

はじめる

 import torch
from transformers import AutoModel
from kernl . model_optimization import optimize_model

model = AutoModel . from_pretrained ( "model_name" ). eval (). cuda ()
optimize_model ( model )

inputs = ...

with torch . inference_mode (), torch . cuda . amp . autocast ():
    outputs = model ( ** inputs )

エンドツーエンドのユースケースについては、確認することをお勧めします。

ロベルタとのXnli古典
T5のテキスト生成

テストとベンチマーク

慣習

ベンチマーク機能を使用したテスト関数には、 test_benchmark_で始まる名前が必要です
ベンチマーク関数には、異なる戦略を使用して同じ操作をベンチマークするときは、 implementationと呼ばれるPARAMが必要です

テストとベンチマークを実行します

 # tada!
pytest

2k以上のベンチマークがあり、実行には時間がかかります。

特にベンチマークの場合、 PyTest仕組みに関するいくつかのルール：

pytest -k benchmarkのような名前でテスト/ベンチマークをフィルタリングするために-kを追加しますbenchmark
フィルター内の式を組み合わせることができます： pytest -k "benchmark and not bert" Bertに関連するベンチマークを除くすべてのベンチマークを実行したい場合
ベンチマーク測定をグループ化して比較するには、 pytest -k benchmark --benchmark-group-by ... ：
- 名前によるGroupInng： pytest -k benchmark --benchmark-group-by fullfunc
- パラメーターの名前によるグループ化： pytest -k benchmark --benchmark-group-by param:implementation,param:shape
  - param:x 、 xは、 @pytest.mark.parametrizeのパラメーター名です
- 両方の組み合わせ： pytest -k benchmark --benchmark-group-by fullfunc,param:implementation
-sを追加して、テストの出力（印刷など）を確認します
-vを追加して、テストの冗長出力を確認します

警告： param:X関数の少なくとも1つのパラメーターではない場合、 XはPytestクラッシュになります。

いくつかの有用なコマンド：

 # only benchmarks
pytest -k benchmark
# no benchmarks
pytest -k " not benchmark "
# only linear layers benchmark, group by shape and if the input is contiguous or not 
pytest test/test_linear_layer.py --benchmark-group-by fullfunc,param:shape,param:contiguous

FXグラフノードを置き換える新しいパターンを作成します

グラフ内の関数/モジュール呼び出しを置き換える最初のステップは、置き換えるパターンを作成することです。これを行う最も簡単な方法は、モデルをFXグラフに変換し、 utils.graph_reportで印刷するか、コードprint(you_graph_module.code)を印刷して印刷することです。

次に、leplage_patternを使用して、グラフのパターンを置き換えることができます。たとえば、モジュールで動作するためのいくつかの拡張機能を備えた独自のバージョンのreplace_patternがあります。その例は、 optimizerフォルダーで見つけることができます。

コードフォーマット

black / isort / flake8を使用してコードをフォーマットします。あなたはそれらをで実行することができます：

make source_code_format
make source_code_check_format

なぜ？

Lefebvre Sarrutでは、生産でいくつかの変圧器を走らせます。それらのいくつかは、潜在性に敏感です（主に検索と想起）。

OnnxRuntimeとTensortを使用しており、Transformer DeployをOSSライブラリで作成して、コミュニティと知識を共有しています。
最近、私たちは生成言語をテストしており、それらを加速しようとしました。従来のツールでは非常に困難です。

基本的に、そしてそれを短くするために、ONNX（これらのツールをフィードするメイン形式）は、ハードウェアの幅広いサポートを備えた興味深い形式であると思われます。

ただし、そのエコシステム（およびほとんどが推論エンジン）には、新しいLLMアーキテクチャを扱う際にいくつかの制限があります。

ONNXへのエクスポートは、トレースに頼ることができるため、制御フローのないモデルには簡単ですが、動的な動作は取得が困難です（https://ppwwyyyxx.com/blog/2022/torchscript-tracing-tracing-vs-scripting/を参照してください。
Pytorchとは異なり、onnxランタイム/Tensortは両方とも、テンソル並列性を可能にするマルチGPUタスクに対するネイティブサポートをまだ持っていません
Tensorrtは、同じプロファイルを持つトランスモデルの2つの動的軸を管理できません。通常、さまざまな長さの入力を提供できるようにするため、バッチサイズごとに1モデルを構築する必要があります。
非常に大きなモデルが一般的であり、ONNX（ProtoBuffファイルとして）には、そのファイルサイズに関するいくつかの制限があり、モデルの外側の重量を回避する必要があります。

非常に迷惑なことの1つは、新しいモデルが決して加速されないという事実です。誰かがそのためにカスタムCudaカーネルを書くのを待つ必要があります。

ソリューションが悪いと言っているわけではありません。OnnxRuntimeの大きなことの1つは、マルチハードウェアサポートです。
Tensortについては、本当に速いです。

したがって、TensortやPython / Pytorchのような速いものが欲しかったので、Kernlを構築しました。

どうやって？

単純なルールは、メモリ帯域幅が多くの場合、深い学習のボトルネックであり、推論を加速するために、メモリアクセスの削減は通常良い戦略です。短い入力シーケンスでは、ボトルネックはしばしばCPUオーバーヘッドに関連しているため、削除する必要があります。直感に反して、物事をより速くするために、計算をより速くする必要はありません。

主に3つのテクノロジーを活用してください。

Openai Triton：CUDAのようなGPUカーネル（Nvidia Triton Inference Serverと混同しないでください）を書くことは言語ですが、はるかに生産的です（少なくとも私たちにとって）。改善は、いくつかのOPSの融合によるものであり、GPUメモリで中間結果を保存せずに計算をチェーンすることができます。私たちはそれを使用して書き直しています：
- 注意（フラッシュの注意に置き換えられました）、
- 線形層とその活性化、
- そして最後にlayernorm/rmsnorm。
CUDAグラフ：Pythonが遅く、吹き飛ばされ、頭上のC ++/Rustを制限することが解決策であると聞いたことがあるかもしれません。それは本当ですが、低いオーバーヘッドよりも優れているのは、オーバーヘッドではありません。それはcudaグラフです！ウォームアップステップ中に、すべてのカーネルの起動とそのパラメーターを保存し、単一のGPU命令を使用して、推論全体を再生できます。
Torchdynamo：Metaのこのプロトタイプは、動的な動作に対処するのに役立ちます。ここで説明されており、ウォームアップステップ中にいくつかの単語でモデルを追跡し、FXグラフ（静的計算グラフ）を提供します。このグラフのいくつかの操作をカーネルに置き換え、Pythonで再コンパイルします。私たちは、私たちが期待する可能性のある動的な動作に対してそれを行います。推論中、入力が分析され、正しい静的グラフが使用されます。それは本当に素晴らしいプロジェクトです、彼らのレポをチェックしてもっと知ります。