Wichtig
bigdl-llm ist jetzt ipex-llm geworden (siehe den Migrationshandbuch hier); Sie können hier das ursprüngliche BigDL -Projekt finden.
<Englisch | 中文>
IPEX-LLM ist eine LLM-Beschleunigungsbibliothek für Intel GPU (z. B. lokaler PC mit IGPU, diskrete GPU wie ARC, Flex und Max) , NPU und CPU 1 .
Notiz
llama.cpp , transformers , bitsandbytes , vLLM , qlora , AutoGPTQ , AutoAWQ usw.ipex-llm (EG, Lama, Phi, Mistral, Mixtral, Whisper, Qwen, Minicpm, Qwen-VL , Minicpm -V) optimiert /verifiziert. Siehe die vollständige Liste hier. ipex-llm bei Intel GPU hinzugefügt.ipex-llm unterstützt jetzt Axolotl für LLM-Finetuning bei Intel GPU; Sehen Sie hier den QuickStart.ipex-llm Inferenz ausführen, mit den Docker -Bildern dienen und finanzieren.ipex-llm unter Windows mit nur " einen Befehl " installieren.ipex-llm die Webui auf Intel GPU ausführen. Sehen Sie hier den QuickStart.llama.cpp und ollama mit ipex-llm ausführen. Sehen Sie hier den QuickStart.ipex-llm unterstützt jetzt Lama 3 sowohl für Intel GPU als auch für CPU.ipex-llm bietet jetzt eine C ++-Schnittstelle, die als beschleunigtes Backend für das Ausführen von llama.cpp und ullama auf Intel GPU verwendet werden kann.bigdl-llm ist jetzt zu ipex-llm geworden (siehe Migrationshandbuch hier); Sie können hier das ursprüngliche BigDL -Projekt finden.ipex-llm unterstützt jetzt das direkte Laden von Modellscope (魔搭 魔搭).ipex-llm fügte den ersten Int2- Unterstützung (basierend auf dem Lama.CPP-IQ2-Mechanismus) hinzu, was es ermöglicht, große LLM (z. B. Mixtral-8x7b) auf Intel GPU mit 16 GB VRAM auszuführen.ipex-llm über die Text-Webui-GUI von Text-Generation verwenden.ipex-llm unterstützt jetzt selbstspezifische Decodierung , was in der Praxis ~ 30% beschleunigt für FP16 und BF16-Inferenzlatenz auf Intel GPU bzw. CPU.ipex-llm unterstützt jetzt eine umfassende Liste von LLM- Finkunen für Intel GPU (einschließlich Lora, Qlora, DPO, QA-Lora und Relora).ipex-llm Qlora gelang es uns, LLAMA2-7B in 21 Minuten und LLAMA2-70B in 3,14 Stunden auf 8 Intel Max 1550 GPU für Standford-Alpaca zu beenden (siehe Blog hier).ipex-llm unterstützt jetzt die Relora (siehe "Relora: Hochrang-Training durch Updates mit niedrigem Rang" ).ipex-llm unterstützt jetzt Mixtral-8x7b sowohl für Intel GPU als auch für CPU.ipex-llm unterstützt jetzt QA-Lora (siehe "QA-LORA: Quantisierung-bewusstes niedrigem Anpassung von Großsprachenmodellen" ).ipex-llm unterstützt nun FP8- und FP4-Inferenz bei Intel GPU .ipex-llm ist verfügbar.ipex-llm unterstützt jetzt VLLM-Batching sowohl für Intel GPU als auch für CPU.ipex-llm unterstützt jetzt die Qlora-Finetuning sowohl für Intel GPU als auch für CPU.ipex-llm unterstützt jetzt Fastchat, die sowohl bei Intel CPU als auch bei GPU dienen.ipex-llm unterstützt jetzt Intel GPU (einschließlich IGPU, ARC, Flex und Max).ipex-llm Tutorial wird veröffentlicht. ipex-llm Demo Siehe Demos des lokalen LLMs auf Intel Core Ultra IGPU, Intel Core Ultra NPU, Single Card ARC GPU oder Multi-Card-ARC-GPUs unter Verwendung von ipex-llm unten.
| Intel Core Ultra (Serie 1) IGPU | Intel Core Ultra (Serie 2) NPU | Intel arc dgpu | 2-Karten-Intel Arc DGPUs |
| Ollama (Mistral-7b Q4_K) | Umarmung (Lama3.2-3b sym_int4) | Textgeneration-Webui (LLAMA3-8B FP8) | Fastchat (QWEN1.5-32B FP6) |
ipex-llm -LeistungWeitere Informationen finden Sie in der Geschwindigkeit der Token -Generierung von Intel Core Ultra und Intel Arc GPU (und finden Sie in [2] [3] [4] für weitere Details).
Sie können den Benchmarking-Handbuch folgen, um ipex-llm Performance Benchmark selbst auszuführen.
Weitere Informationen finden Sie im folgenden Verwirrigkeitsergebnis (getestet auf dem Wikitext -Datensatz mit dem Skript hier).
| Verwirrung | sym_int4 | Q4_K | FP6 | fp8_e5m2 | fp8_e4m3 | FP16 |
|---|---|---|---|---|---|---|
| LAMA-2-7B-CHAT-HF | 6.364 | 6.218 | 6.092 | 6.180 | 6.098 | 6.096 |
| Mistral-7b-Instruct-V0.2 | 5.365 | 5.320 | 5.270 | 5.273 | 5.246 | 5.244 |
| Baichuan2-7b-Chat | 6.734 | 6.727 | 6.527 | 6.539 | 6.488 | 6.508 |
| QWEN1.5-7B-CHAT | 8.865 | 8.816 | 8.557 | 8.846 | 8.530 | 8.607 |
| LAMA-3.1-8B-ISTRUCT | 6.705 | 6.566 | 6.338 | 6.383 | 6.325 | 6.267 |
| Gemma-2-9b-it | 7.541 | 7.412 | 7.269 | 7.380 | 7.268 | 7.270 |
| Baichuan2-13b-Chat | 6.313 | 6.160 | 6.070 | 6.145 | 6.086 | 6.031 |
| LAMA-2-13B-CHAT-HF | 5.449 | 5.422 | 5.341 | 5.384 | 5.332 | 5.329 |
| QWEN1.5-14B-CHAT | 7.529 | 7.520 | 7.367 | 7.504 | 7.297 | 7.334 |
ipex-llm QuickStartllama.cpp , ollama usw. mit ipex-llm auf Intel GPUtransformers , LangChain , LlamaIndex , ModelScope usw. mit ipex-llm auf Intel GPUvLLM , das mit ipex-llm auf Intel GPU serviert wirdvLLM , das mit ipex-llm auf Intel CPU serviert wirdFastChat -Servieren mit ipex-llm auf Intel GPUipex-llm Anwendungen in Python mit VSCODE auf Intel GPUipex-llm auf Intel NPU sowohl in Python als auch in C ++ ausführenipex-llm ) auf Intel GPUipex-llm ) auf Intel GPUipex-llm ) auf Intel GPU für Windows und Linuxipex-llm in VLLM sowohl auf Intel GPU als auch auf der CPU ausführenipex-llm in Fastchat ausführen, der sowohl bei Intel GPU als auch bei CPU eingehtipex-llm die auf mehreren Intel-GPUs dienen, indem DeepSpeed autotp und fastapi nutztipex-llm in oobabooga Webui ausführenipex-llm in Axolotl für LLM-Finetuning ausführenipex-llm auf Intel CPU und GPUGraphRAG mithilfe lokaler LLM mit ipex-llm ausführenRAGFlow ( ein Open-Source-Lappenmotor ) mit ipex-llmLangChain-Chatchat ( Wissensbasis-QA mit RAG-Pipeline ) mit ipex-llm ausführenContinue (CODING COPILOT in VSCODE) mit ipex-llmOpen WebUI mit ipex-llm aus.PrivateGPT ausführen, um mit Dokumenten mit ipex-llm zu interagierenipex-llm in Dify ausführen ( produktionsbereite LLM-App-Entwicklungsplattform )ipex-llm unter Windows mit Intel GPUipex-llm unter Linux mit Intel GPUipex-llm -Modellen mit niedrigem Bit (INT4/FP4/FP6/INT8/FP8/FP16/ETC.)ipex-llm ladenipex-llmipex-llm Über 70 Modelle wurden auf ipex-llm optimiert/verifiziert, darunter Lama/Llama2, Mistral, Mixtral, Gemma, Llava, Whisper, Chatglm2/Chatglm3, Baichuan/Baichuan2, Qwen/Qwen-1.5, Internlm und mehr; Siehe die Liste unten.
| Modell | CPU -Beispiel | GPU -Beispiel | NPU -Beispiel |
|---|---|---|---|
| Lama | link1, link2 | Link | |
| Lama 2 | link1, link2 | Link | Python Link, C ++ Link |
| Lama 3 | Link | Link | Python Link, C ++ Link |
| Lama 3.1 | Link | Link | |
| Lama 3.2 | Link | Python Link, C ++ Link | |
| Lama 3,2-Vision | Link | ||
| Chatglm | Link | ||
| Chatglm2 | Link | Link | |
| Chatglm3 | Link | Link | |
| GLM-4 | Link | Link | |
| GLM-4V | Link | Link | |
| GLM-Edge | Link | Python Link | |
| GLM-Edge-V | Link | ||
| Mistral | Link | Link | |
| Mixtral | Link | Link | |
| Falke | Link | Link | |
| Mpt | Link | Link | |
| Dolly-V1 | Link | Link | |
| Dolly-V2 | Link | Link | |
| Replit -Code | Link | Link | |
| Redpajama | link1, link2 | ||
| Phönix | link1, link2 | ||
| StarCoder | link1, link2 | Link | |
| Baichuan | Link | Link | |
| Baichuan2 | Link | Link | Python Link |
| Internlm | Link | Link | |
| Internvl2 | Link | ||
| Qwen | Link | Link | |
| Qwen1.5 | Link | Link | |
| Qwen2 | Link | Link | Python Link, C ++ Link |
| Qwen2.5 | Link | Python Link, C ++ Link | |
| Qwen-vl | Link | Link | |
| Qwen2-vl | Link | ||
| Qwen2-Audio | Link | ||
| Aquila | Link | Link | |
| Aquila2 | Link | Link | |
| MOOS | Link | ||
| Flüstern | Link | Link | |
| PHI-1_5 | Link | Link | |
| Flan-T5 | Link | Link | |
| Llava | Link | Link | |
| Codellama | Link | Link | |
| Skywork | Link | ||
| Internlm-Xcomposer | Link | ||
| WizardCoder-Python | Link | ||
| Codeshell | Link | ||
| Fuyu | Link | ||
| Distil-Whisper | Link | Link | |
| Yi | Link | Link | |
| Bluelm | Link | Link | |
| Mamba | Link | Link | |
| SOLAR | Link | Link | |
| Phixtral | Link | Link | |
| Internlm2 | Link | Link | |
| Rwkv4 | Link | ||
| Rwkv5 | Link | ||
| Bellen | Link | Link | |
| Rede5 | Link | ||
| Deepseek-Moe | Link | ||
| Ziya-Coding-34B-V1.0 | Link | ||
| Phi-2 | Link | Link | |
| Phi-3 | Link | Link | |
| PHI-3-Vision | Link | Link | |
| Yuan2 | Link | Link | |
| Gemma | Link | Link | |
| Gemma2 | Link | ||
| Decilm-7b | Link | Link | |
| Deepseek | Link | Link | |
| Stablelm | Link | Link | |
| Codegemma | Link | Link | |
| Kommando-R/Cohere | Link | Link | |
| Codegeex2 | Link | Link | |
| Minicpm | Link | Link | Python Link, C ++ Link |
| Minicpm3 | Link | ||
| Minicpm-V | Link | ||
| Minicpm-V-2 | Link | Link | |
| Minicpm-Llama3-V-2_5 | Link | Python Link | |
| Minicpm-V-2_6 | Link | Link | Python Link |
| Stabilitätsunterschied | Link | ||
| BCE-Embedding-Base-V1 | Python Link | ||
| Real_paraformer-large | Python Link |
Die Leistung variiert je nach Verwendung, Konfiguration und anderen Faktoren. ipex-llm kann für Nicht-unplane Produkte möglicherweise nicht in gleichem Maße optimieren. Erfahren Sie mehr unter www.intel.com/performanceIndex. ↩ ↩ 2