Penting
bigdl-llm sekarang telah menjadi ipex-llm (lihat Panduan Migrasi di sini); Anda dapat menemukan proyek BigDL asli di sini.
<Bahasa Inggris | 中文>
IPEX-LLM adalah pustaka akselerasi LLM untuk Intel GPU (misalnya, PC lokal dengan IGPU, GPU diskrit seperti ARC, FLEX dan MAX) , NPU dan CPU 1 .
Catatan
llama.cpp , transformers , bitsandbytes , vLLM , qlora , AutoGptq, AutoGPTQ , AutoAWQ , dll.ipex-llm (misalnya, Llama, PHI, Mistral, Mixtral, Whisper, Qwen, MiniCPM, Qwen-VL, MiniCPM-V dan lebih banyak lagi), dengan Optimalisasi LLM/ FP4), FP8/FP6/FP6), FP8/ FP8 /FP6/FP6/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8/FP8 Lihat daftar lengkap di sini. ipex-llm di Intel GPU.ipex-llm sekarang mendukung Axolotl untuk LLM Finetuning di Intel GPU; Lihat QuickStart di sini.ipex-llm , melayani dan finetuning menggunakan gambar Docker .ipex-llm pada windows menggunakan hanya " satu perintah ".ipex-llm ; Lihat QuickStart di sini.llama.cpp dan ollama dengan ipex-llm ; Lihat QuickStart di sini.ipex-llm sekarang mendukung LLAMA 3 di Intel GPU dan CPU.ipex-llm sekarang menyediakan antarmuka C ++, yang dapat digunakan sebagai backend yang dipercepat untuk menjalankan llama.cpp dan ollama di Intel GPU.bigdl-llm sekarang telah menjadi ipex-llm (lihat Panduan Migrasi di sini); Anda dapat menemukan proyek BigDL asli di sini.ipex-llm sekarang mendukung model memuat langsung dari ModelScope (魔搭).ipex-llm Menambahkan dukungan int2 awal (berdasarkan mekanisme LLAMA.CPP IQ2), yang memungkinkan untuk menjalankan LLM berukuran besar (misalnya, Mixtral-8x7b) pada Intel GPU dengan 16GB VRAM.ipex-llm melalui Text-Generation-Webui GUI.ipex-llm sekarang mendukung decoding spekulatif mandiri , yang dalam praktiknya membawa ~ 30% speedup untuk latensi inferensi FP16 dan BF16 masing-masing pada GPU Intel dan CPU.ipex-llm sekarang mendukung daftar komprehensif LLM Finetuning di Intel GPU (termasuk Lora, Qlora, DPO, QA-Lora dan Relora).ipex-llm qlora, kami berhasil finetune llama2-7b dalam 21 menit dan llama2-70b dalam 3,14 jam pada 8 intel max 1550 gpu untuk standford-alpaca (lihat blog di sini).ipex-llm sekarang mendukung Relora (lihat "Relora: pelatihan peringkat tinggi melalui pembaruan peringkat rendah" ).ipex-llm sekarang mendukung Mixtral-8x7b pada GPU Intel dan CPU.ipex-llm sekarang mendukung QA-Lora (lihat "QA-Lora: Kuantisasi-Sadari Adaptasi Rendah Model Bahasa Besar" ).ipex-llm sekarang mendukung inferensi FP8 dan FP4 pada GPU Intel.ipex-llm tersedia.ipex-llm sekarang mendukung Batching kontinu VLLM pada GPU Intel dan CPU.ipex-llm sekarang mendukung qlora finetuning pada GPU Intel dan CPU.ipex-llm sekarang mendukung Fastchat yang bertugas di CPU dan GPU Intel.ipex-llm sekarang mendukung Intel GPU (termasuk IGPU, ARC, Flex dan Max).ipex-llm dirilis. ipex-llm Lihat demo menjalankan LLM lokal di Intel Core Ultra IGPU, Intel Core Ultra NPU, GPU ARC kartu tunggal, atau GPU ARC multi-kartu menggunakan ipex-llm di bawah ini.
| Intel Core Ultra (Seri 1) IGPU | Intel Core Ultra (Seri 2) NPU | Intel Arc DGPU | 2-kartu Intel Arc DGPUS |
| Ollama (MISTRAL-7B Q4_K) | Huggingface (Llama3.2-3b sym_int4) | TextGeneration-Webui (Llama3-8b fp8) | Fastchat (QWEN1.5-32B FP6) |
ipex-llmLihat Kecepatan Generasi Token pada Intel Core Ultra dan Intel Arc GPU di bawah 1 (dan lihat [2] [3] [4] untuk detail lebih lanjut).
Anda dapat mengikuti panduan benchmarking untuk menjalankan ipex-llm Performance Benchmark sendiri.
Silakan lihat hasil kebingungan di bawah ini (diuji pada dataset Wikuxt menggunakan skrip di sini).
| Kebingungan | sym_int4 | q4_k | fp6 | fp8_e5m2 | FP8_E4M3 | FP16 |
|---|---|---|---|---|---|---|
| LLAMA-2-7B-CHAT-HF | 6.364 | 6.218 | 6.092 | 6.180 | 6.098 | 6.096 |
| Mistral-7b-instruct-V0.2 | 5.365 | 5.320 | 5.270 | 5.273 | 5.246 | 5.244 |
| Baichuan2-7B-CHAT | 6.734 | 6.727 | 6.527 | 6.539 | 6.488 | 6.508 |
| QWEN1.5-7B-CHAT | 8.865 | 8.816 | 8.557 | 8.846 | 8.530 | 8.607 |
| Llama-3.1-8b-instruct | 6.705 | 6.566 | 6.338 | 6.383 | 6.325 | 6.267 |
| GEMMA-2-9B-IT | 7.541 | 7.412 | 7.269 | 7.380 | 7.268 | 7.270 |
| Baichuan2-13b-CHAT | 6.313 | 6.160 | 6.070 | 6.145 | 6.086 | 6.031 |
| LLAMA-2-13B-CHAT-HF | 5.449 | 5.422 | 5.341 | 5.384 | 5.332 | 5.329 |
| QWEN1.5-14B-CHAT | 7.529 | 7.520 | 7.367 | 7.504 | 7.297 | 7.334 |
ipex-llm QuickStartllama.cpp , ollama , dll., Dengan ipex-llm di Intel GPUtransformers , LangChain , LlamaIndex , ModelScope , dll. Dengan ipex-llm di Intel GPUvLLM Melayani dengan ipex-llm di Intel GPUvLLM Melayani dengan ipex-llm di Intel CPUFastChat melayani dengan ipex-llm di intel gpuipex-llm di Python Menggunakan VScode di Intel GPUipex-llm di Intel NPU di Python dan C ++ipex-llm ) di Intel GPUipex-llm ) di Intel GPUipex-llm ) pada GPU Intel untuk Windows dan Linuxipex-llm di VLLM di Intel GPU dan CPUipex-llm di fastchat yang disajikan di GPU Intel dan CPUipex-llm yang melayani di beberapa Intel GPU dengan memanfaatkan AutoTP dan FASOTPI Deepspeed dan FastAPIipex-llm di oobabooga Webuiipex-llm di Axolotl untuk LLM Finetuningipex-llm di Intel CPU dan GPUGraphRAG Microsoft menggunakan LLM lokal dengan ipex-llmRAGFlow ( mesin kain open-source ) dengan ipex-llmLangChain-Chatchat ( Basis Pengetahuan QA Menggunakan Pipa Rag ) dengan ipex-llmContinue (Coding Copilot di VScode) dengan ipex-llmOpen WebUI dengan ipex-llmPrivateGPT untuk Berinteraksi dengan Dokumen dengan ipex-llmipex-llm Di Dify ( Platform Pengembangan Aplikasi LLM siap-produksi )ipex-llm di Windows dengan Intel GPUipex-llm di Linux dengan Intel GPUipex-llm (int4/fp4/fp6/int8/fp8/fp16/dll.ipex-llmipex-llmipex-llm Lebih dari 70 model telah dioptimalkan/diverifikasi pada ipex-llm , termasuk Llama/Llama2, Mistral, Mixtral, Gemma, Llava, Whisper, Chatglm2/Chatglm3, Baichuan/Baichuan2, Qwen/Qwen-1.5, internlm dan banyak lagi; Lihat daftar di bawah ini.
| Model | Contoh CPU | Contoh GPU | Contoh NPU |
|---|---|---|---|
| Llama | link1, link2 | link | |
| Llama 2 | link1, link2 | link | Tautan Python, tautan C ++ |
| Llama 3 | link | link | Tautan Python, tautan C ++ |
| Llama 3.1 | link | link | |
| Llama 3.2 | link | Tautan Python, tautan C ++ | |
| Llama 3.2-visi | link | ||
| Chatglm | link | ||
| Chatglm2 | link | link | |
| Chatglm3 | link | link | |
| GLM-4 | link | link | |
| GLM-4V | link | link | |
| Glm-edge | link | Tautan Python | |
| Glm-edge-v | link | ||
| Mistral | link | link | |
| Mixtral | link | link | |
| Elang | link | link | |
| MPT | link | link | |
| Dolly-V1 | link | link | |
| Dolly-V2 | link | link | |
| Kode Replit | link | link | |
| Redpajama | link1, link2 | ||
| Phoenix | link1, link2 | ||
| Starcoder | link1, link2 | link | |
| Baichuan | link | link | |
| Baichuan2 | link | link | Tautan Python |
| Internlm | link | link | |
| Internvl2 | link | ||
| Qwen | link | link | |
| Qwen1.5 | link | link | |
| Qwen2 | link | link | Tautan Python, tautan C ++ |
| Qwen2.5 | link | Tautan Python, tautan C ++ | |
| Qwen-vl | link | link | |
| QWEN2-VL | link | ||
| Qwen2-audio | link | ||
| Aquila | link | link | |
| Aquila2 | link | link | |
| LUMUT | link | ||
| Berbisik | link | link | |
| PHI-1_5 | link | link | |
| Flan-T5 | link | link | |
| Llava | link | link | |
| Codellama | link | link | |
| SKYWORK | link | ||
| Internlm-xComposer | link | ||
| WizardCoder-Python | link | ||
| Codeshell | link | ||
| Fuyu | link | ||
| Distil-whisper | link | link | |
| Yi | link | link | |
| Bluelm | link | link | |
| Mamba | link | link | |
| TENAGA SURYA | link | link | |
| Phixtral | link | link | |
| Internlm2 | link | link | |
| Rwkv4 | link | ||
| Rwkv5 | link | ||
| Kulit pohon | link | link | |
| Pidato | link | ||
| Deepseek-Moe | link | ||
| Ziya-coding-34b-v1.0 | link | ||
| Phi-2 | link | link | |
| Phi-3 | link | link | |
| Phi-3-vision | link | link | |
| Yuan2 | link | link | |
| Gemma | link | link | |
| Gemma2 | link | ||
| DECILM-7B | link | link | |
| Deepseek | link | link | |
| Stablelm | link | link | |
| Codegemma | link | link | |
| Command-r/cohere | link | link | |
| Codegeex2 | link | link | |
| Minicpm | link | link | Tautan Python, tautan C ++ |
| Minicpm3 | link | ||
| Minicpm-v | link | ||
| Minicpm-v-2 | link | link | |
| Minicpm-llama3-v-2_5 | link | Tautan Python | |
| Minicpm-v-2_6 | link | link | Tautan Python |
| Stablediffusion | link | ||
| BCE-EMBEDDING-BASE-V1 | Tautan Python | ||
| Pidato_paraformer-large | Tautan Python |
Kinerja bervariasi berdasarkan penggunaan, konfigurasi, dan faktor lainnya. ipex-llm mungkin tidak mengoptimalkan ke tingkat yang sama untuk produk non-intel. Pelajari lebih lanjut di www.intel.com/performanceIndex. ↩ ↩ 2