Unduh kernl - Unduh Kode Sumber kernl

kernl

ular piton

v0.2.2

Unduh

Kernl memungkinkan Anda menjalankan model transformator pytorch beberapa kali lebih cepat pada GPU dengan satu baris kode, dan dirancang agar mudah diretas.

Tolok ukur berlari pada 3090 RTX

Kernl adalah mesin inferensi OSS pertama yang ditulis ~~Cuda c~~ Openai Triton, bahasa baru yang dirancang oleh Openai untuk membuatnya lebih mudah menulis kernel GPU.
Setiap kernel kurang dari 200 baris kode, dan mudah dipahami dan dimodifikasi.

Tutorial - Kasing Penggunaan Akhir Ujung

Daftar contoh berisi cara menggunakan kernl dengan pytorch.

Topik	Buku catatan
Matriks Matriks Implementasi dalam Gaya `CUDA`	link
Offset Matmul : Penjelasan terperinci terkait dengan trik kinerja yang digunakan dalam implementasi Triton Matmul	link
Softmax Online : Perhitungan Softmax Paralelisasi, Bahan Utama `Flash Attention`	link
`Flash Attention` : Perhitungan perhatian tanpa menyimpan matriks perhatian ke memori global	link
Klasifikasi XNLI : Klasifikasi dengan / tanpa optimasi ( `Roberta` + `XNLI` Tugas Klasifikasi)	link
Generasi Teks : Dengan/Tanpa Optimalisasi ( `T5` )	link
Generasi Transkripsi : Dengan/Tanpa Optimalisasi ( `Whisper` )	link
** Llama Versi 2 Optimalisasi oleh Kernel Fusion	link

Instalasi

Penting : Paket ini membutuhkan pytorch yang diinstal.
Harap instal dulu.

pip install ' git+https://github.com/ELS-RD/kernl '
# or for local dev, after git clone ...
pip install -e .

Proyek ini membutuhkan Python > = 3.9. Selain itu, perpustakaan memerlukan GPU dan CUDA Ampere untuk diinstal.

Jika Anda lebih suka Docker :

 # build
DOCKER_BUILDKIT=1 docker build -t kernl .
# run
docker run --rm -it --gpus all -v $( pwd ) :/kernl kernl

Memulai

 import torch
from transformers import AutoModel
from kernl . model_optimization import optimize_model

model = AutoModel . from_pretrained ( "model_name" ). eval (). cuda ()
optimize_model ( model )

inputs = ...

with torch . inference_mode (), torch . cuda . amp . autocast ():
    outputs = model ( ** inputs )

Untuk kasus penggunaan ujung ke ujung, Anda mungkin ingin memeriksa:

Klasifikasi xnli dengan Roberta
pembuatan teks dengan T5

Uji dan tolok ukur

Konvensi

Fungsi uji menggunakan fitur benchmark harus memiliki nama yang dimulai dengan test_benchmark_
Fungsi benchmark harus memiliki param yang disebut implementation saat membandingkan operasi yang sama menggunakan strategi yang berbeda

Jalankan tes dan tolok ukur

 # tada!
pytest

Ada lebih dari 2K tolok ukur, dan mereka membutuhkan waktu untuk berlari.

Beberapa aturan tentang bagaimana PyTest bekerja, khususnya untuk tolok ukur:

Tambahkan -k untuk memfilter tes/tolok ukur dengan nama mereka seperti pytest -k benchmark untuk menjalankan hanya tes dengan benchmark dalam nama mereka
Anda dapat menggabungkan ekspresi di pytest -k "benchmark and not bert" jika Anda ingin menjalankan semua tolok ukur kecuali yang terkait dengan Bert
Untuk mengelompokkan dan membandingkan langkah-langkah tolok ukur, gunakan pytest -k benchmark --benchmark-group-by ... :
- groupinng dengan nama: pytest -k benchmark --benchmark-group-by fullfunc
- pengelompokan berdasarkan nama parameter: pytest -k benchmark --benchmark-group-by param:implementation,param:shape
  - param:x , x adalah nama parameter di @pytest.mark.parametrize
- Menggabungkan keduanya: pytest -k benchmark --benchmark-group-by fullfunc,param:implementation
Tambahkan -s untuk melihat output dari tes (cetak, dll.)
Tambahkan -v untuk melihat output verbose dari tes

PERINGATAN : param:X akan membuat pytest macet jika X bukan parameter setidaknya salah satu fungsi berjalan.

Beberapa perintah yang berguna:

 # only benchmarks
pytest -k benchmark
# no benchmarks
pytest -k " not benchmark "
# only linear layers benchmark, group by shape and if the input is contiguous or not 
pytest test/test_linear_layer.py --benchmark-group-by fullfunc,param:shape,param:contiguous

Buat pola baru untuk menggantikan node grafik fx

Langkah pertama untuk mengganti panggilan fungsi/modul dalam grafik adalah membuat pola yang akan diganti. Cara termudah untuk melakukan ini adalah dengan mengonversi model ke grafik fx, dan kemudian mencetaknya dengan utils.graph_report atau dengan mencetak print(you_graph_module.code)

Kemudian Anda dapat menggunakan Replikan_Pattern untuk mengganti pola dalam grafik. Kami memiliki versi sendiri dari replace_pattern dengan beberapa peningkatan untuk bekerja dengan modul, misalnya. Anda dapat menemukan contohnya di folder optimizer .

Pemformatan kode

Kami menggunakan black / isort / flake8 untuk memformat kode. Anda dapat menjalankannya dengan:

make source_code_format
make source_code_check_format

Mengapa?

Di Lefebvre Sarrut, kami menjalankan beberapa transformator dalam produksi, beberapa di antaranya sensitif terhadap latensi (pencarian dan recsys kebanyakan).

Kami menggunakan onnxruntime dan TensorRT dan bahkan menciptakan transformator-menggunakan perpustakaan OSS untuk berbagi pengetahuan kami dengan komunitas.
Baru -baru ini, kami menguji bahasa generatif, dan kami mencoba mempercepatnya. Ini terbukti sangat sulit dengan alat tradisional.

Pada dasarnya, dan untuk membuatnya pendek, bagi kita tampaknya ONNX (format utama untuk memberi makan alat -alat itu) adalah format yang menarik dengan berbagai dukungan perangkat keras.

Namun, ekosistemnya (dan sebagian besar mesin inferensi) memiliki beberapa batasan ketika kita berurusan dengan arsitektur LLM baru:

Ekspor ke ONNX sederhana untuk model tanpa aliran kontrol karena kita dapat mengandalkan penelusuran, tetapi perilaku dinamis lebih sulit diperoleh (lihat https://ppwwyyxx.com/blog/2022/torchcript-tracing-vs-scripting/ Untuk info lebih lanjut, ini tentang taruhan tetapi persis sama untuk onnx).
Tidak seperti Pytorch, baik Onnx Runtime/TensorRT belum mendukung tugas multi gpus yang memungkinkan paralelisme tensor
Tensorrt tidak dapat mengelola 2 sumbu dinamis untuk model transformator dengan profil yang sama. Karena biasanya kami ingin dapat memberikan input dengan panjang yang berbeda, kami perlu membangun 1 model per ukuran batch.
Model yang sangat besar adalah umum dan ONNX (sebagai file protobuff) memiliki beberapa batasan mengenai ukuran file, yang perlu menyimpan bobot luar dari model untuk solusi.

Satu hal yang sangat menjengkelkan adalah kenyataan bahwa model baru tidak pernah dipercepat, Anda perlu menunggu seseorang untuk menulis kernel cuda khusus untuk itu.

Ini bukan untuk mengatakan solusinya buruk, satu hal besar dengan onnxruntime adalah dukungan multi perangkat kerasnya.
Mengenai Tensorrt, ini sangat cepat.

Jadi kami menginginkan sesuatu secepat Tensorrt dan di Python / Pytorch, itu sebabnya kami membangun Kernl.

Bagaimana?

Aturan sederhananya adalah bandwidth memori sering kali merupakan hambatan dalam pembelajaran yang mendalam, untuk mempercepat inferensi, pengurangan akses memori biasanya merupakan strategi yang baik. Pada urutan input pendek, bottleneck sering terkait dengan overhead CPU, itu harus dihapus juga. Secara berlawanan, untuk membuat segalanya lebih cepat, Anda tidak perlu lebih cepat dalam perhitungan.

Kami memanfaatkan sebagian besar 3 teknologi:

Openai Triton: Ini adalah bahasa untuk menulis kernel GPU seperti CUDA (jangan bingung dengan Nvidia Triton Inference Server), tetapi jauh lebih produktif (setidaknya untuk kita). Peningkatan disebabkan oleh perpaduan beberapa OP, membuat kami dapat menghitung perhitungan tanpa menyimpan hasil perantara dalam memori GPU. Kami menggunakannya untuk menulis ulang:
- Perhatian (digantikan dengan perhatian flash),
- Lapisan linier dan aktivasinya,
- dan akhirnya Layernorm/RMSNorm.
Grafik CUDA: Anda mungkin pernah mendengar bahwa Python lambat, blablabla dan untuk membatasi overhead C ++/karat harus menjadi solusinya. Memang benar tetapi lebih baik daripada overhead rendah tidak ada overhead sama sekali. Itu grafik CUDA! Selama langkah pemanasan, itu akan menyimpan setiap kernel yang diluncurkan dan parameternya, dan kemudian, dengan satu instruksi GPU, kita dapat memutar ulang seluruh inferensi.
Torchdynamo: Prototipe dari meta ini membantu kita mengatasi perilaku dinamis. Ini dijelaskan di sini, dan dalam beberapa kata selama langkah pemanasan itu melacak model dan menyediakan grafik FX (grafik komputasi statis). Kami mengganti beberapa operasi grafik ini dengan kernel kami dan mengkompilasi ulangnya di Python. Kami melakukan itu untuk segala kemungkinan perilaku dinamis yang kami harapkan. Selama inferensi, input dianalisis, dan grafik statis yang benar digunakan. Ini benar -benar proyek yang luar biasa, periksa repo mereka untuk mengetahui lebih banyak.

Ucapan Terima Kasih

Kode Kernel Openai Triton mengambil inspirasi dari contoh -contoh dari tutorial Openai Triton atau perpustakaan xformers.

Berkontribusi

Jika Anda ingin berkontribusi, misalnya kode atau dokumentasi, silakan lihat Panduan Kontribusi kami.

Kode Etik

Silakan lihat kode perilaku kami untuk pertanyaan tentang komunitas yang kami coba bangun dan apa yang harus dilakukan jika Anda membutuhkan bantuan dengan seseorang yang bertindak tidak profesional.

Memperluas

Informasi Tambahan

Versi v0.2.2
Tipe ular piton
Waktu Pembaruan 2025-07-14
ukuran 1.94MB
Berasal dari Github

Aplikasi Terkait

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
datamule python

2024-11-08
Alat bagan data sumber terbuka Redash v24.10.0

2024-11-27
platform visualisasi data smartchart v6.9

2024-11-27
Alat pengujian beban belalang v2.32.0

2024-11-27

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ToDo Co

ular piton

1.0.0
Python Portfolio

ular piton
datamule python

ular piton
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua