ipex llm
IPEX-LLM release 2.1.0
重要的
bigdl-llm現在已成為ipex-llm (請參閱此處的遷移指南);您可能在這裡找到原始的BigDL項目。
<英語| 中文>
IPEX-LLM是用於Intel GPU的LLM加速庫(例如,具有IGPU的本地PC,諸如ARC,FLEX和MAX等離散GPU) ,NPU和CPU 1 。
筆記
llama.cpp , transformers , bitsandbytes , vLLM , qlora , AutoGPTQ , AutoAWQ等的出色作品之上。ipex-llm上進行了優化/驗證(例如,Llama,Mistral,Mixtral,Whisper,Whisper,Qwen,Qwen,minicpm,Qwen-Vl,minicpm-v等),並具有先進的LLM LLM優化, XPU ACCELERATION,XPU ACCELERATION和FLOW-PIT(FP8/FP8/FP6/FP6/FP4/INT) ;請參閱此處的完整列表。 ipex-llm添加了對Ragflow運行的支持。ipex-llm現在支持Intel GPU上LLM Finetuning的Axolotl ;請參閱此處的快速啟動。ipex-llm推理,服務和填充。ipex-llm 。ipex-llm在英特爾GPU上打開WebUI ;請參閱此處的快速啟動。llama.cpp和ipex-llm的llama.cpp和ollama在英特爾GPU上運行Llama 3 ;請參閱此處的快速啟動。ipex-llm現在支持英特爾GPU和CPU上的Llama 3 。ipex-llm現在提供C ++接口,該接口可以用作Intel GPU上運行Llama.cpp和Ollama的加速後端。bigdl-llm現在已成為ipex-llm (請參閱此處的遷移指南);您可能在這裡找到原始的BigDL項目。ipex-llm現在支持ModelsCope(魔搭)的直接加載模型。ipex-llm添加了初始INT2支持(基於Llama.CPP IQ2機制),這使得使用16GB VRAM的Intel GPU上運行大型LLM(例如,Mixtral-8x7b)。ipex-llm 。ipex-llm現在支持自我指碼,實際上,FP16和BF16的推理延遲在Intel GPU和CPU上分別帶來了約30%的速度。ipex-llm現在支持Intel GPU上LLM Finetuning的綜合列表(包括Lora,Qlora,DPO,dpo,Qa-lora和Relora)。ipex-llm Qlora,我們設法在21分鐘內進行了Finetune Llama2-7b,在8 Intel Max 1550 GPU中為Standford-Alpaca提供了3.14小時的Llama2-70B(請參見此處的博客)。ipex-llm現在支持Relora(請參閱“ Relora:通過低級更新的高級培訓” )。ipex-llm現在支持Intel GPU和CPU上的Mixtral-8x7b。ipex-llm現在支持QA-LORA(請參閱“ QA-Lora:量化 - 意識到的大語言模型的低級別適應” )。ipex-llm現在支持Intel GPU上的FP8和FP4推斷。ipex-llm中。ipex-llm現在支持Intel GPU和CPU上的VLLM連續批處理。ipex-llm現在支持Intel GPU和CPU上的Qlora Finetuning。ipex-llm現在支持Intel CPU和GPU上的FastChat。ipex-llm現在支持Intel GPU(包括IGPU,ARC,FLEX和MAX)。ipex-llm教程已發布。 ipex-llm演示請參閱在Intel Core Ultra IGPU,Intel Core Ultra NPU,單卡ARC GPU或多牌弧GPU上運行本地LLM的演示,使用下面的ipex-llm 。
| Intel Core Ultra(系列1)IGPU | Intel Core Ultra(系列2)NPU | 英特爾弧DGPU | 2卡Intel Arc DGPU |
| 霍拉馬 (Mistral-7B Q4_K) | 擁抱面 (llama3.2-3b sym_int4) | textgeneration-webui (Llama3-8B FP8) | fastchat (QWEN1.5-32B FP6) |
ipex-llm性能請參閱Intel Core Ultra和Intel Arc GPU的令牌生成速度以下(並參考[2] [3] [4],有關更多詳細信息)。
您可以按照基準指南自己運行ipex-llm性能基準測試。
請參閱下面的困惑結果(在此處使用腳本在Wikitext數據集上測試)。
| 困惑 | SYM_INT4 | Q4_K | FP6 | FP8_E5M2 | FP8_E4M3 | FP16 |
|---|---|---|---|---|---|---|
| Llama-2-7b-chat-hf | 6.364 | 6.218 | 6.092 | 6.180 | 6.098 | 6.096 |
| MISTRAL-7B-INSTRUCT-V0.2 | 5.365 | 5.320 | 5.270 | 5.273 | 5.246 | 5.244 |
| baichuan2-7b-chat | 6.734 | 6.727 | 6.527 | 6.539 | 6.488 | 6.508 |
| qwen1.5-7b-chat | 8.865 | 8.816 | 8.557 | 8.846 | 8.530 | 8.607 |
| Llama-3.1-8B教學 | 6.705 | 6.566 | 6.338 | 6.383 | 6.325 | 6.267 |
| gemma-2-9b-it | 7.541 | 7.412 | 7.269 | 7.380 | 7.268 | 7.270 |
| Baichuan2-13b-chat | 6.313 | 6.160 | 6.070 | 6.145 | 6.086 | 6.031 |
| Llama-2-13b-chat-hf | 5.449 | 5.422 | 5.341 | 5.384 | 5.332 | 5.329 |
| qwen1.5-14b-chat | 7.529 | 7.520 | 7.367 | 7.504 | 7.297 | 7.334 |
ipex-llm Quickstartllama.cpp , ollama等,使用ipex-llm在intel gpu上ipex-llm HuggingFace transformers , LangChain , LlamaIndex , ModelScope等。ipex-llm運行vLLMipex-llm運行vLLMipex-llm一起運行FastChatipex-llm應用程序ipex-llmipex-llm的C ++接口)ipex-llm的C ++接口)ipex-llm的Python接口)用於Windows和Linuxipex-llmipex-llmipex-llmoobabooga webui中運行ipex-llmipex-llm用於llm fenetuningipex-llm在Intel CPU和GPU上運行(延遲和吞吐量)基準ipex-llm本地LLM運行Microsoft的GraphRAGipex-llm RAGFlow (開源抹布引擎)ipex-llm運行LangChain-Chatchat (使用RAG Pipeline的知識庫QA )ipex-llm運行Continue (VSCODE中的Copilot)ipex-llm Open WebUIPrivateGPT與文檔與ipex-llm進行交互Dify (可生產的LLM應用程序開發平台)中運行ipex-llmipex-llmipex-llmipex-llm低位型號(INT4/FP4/FP6/INT8/FP8/FP16/等)。ipex-llm中ipex-llm中ipex-llm中已在ipex-llm上進行了優化/驗證70多個型號,包括Llama/Llama2,Mistral,Mixtral,Gemma,Llava,Whisper,Chatglm2/Chatglm2/Chatglm3,Baichuan/baichuan/baichuan2,qwen/qwen/qwen/qwen-1.5,Internlm等;請參閱下面的列表。
| 模型 | CPU示例 | GPU示例 | NPU示例 |
|---|---|---|---|
| 駱駝 | link1,link2 | 關聯 | |
| 美洲駝2 | link1,link2 | 關聯 | Python鏈接,C ++鏈接 |
| 駱駝3 | 關聯 | 關聯 | Python鏈接,C ++鏈接 |
| 駱駝3.1 | 關聯 | 關聯 | |
| 美洲駝3.2 | 關聯 | Python鏈接,C ++鏈接 | |
| 駱駝3.2 vision | 關聯 | ||
| chatglm | 關聯 | ||
| chatglm2 | 關聯 | 關聯 | |
| chatglm3 | 關聯 | 關聯 | |
| GLM-4 | 關聯 | 關聯 | |
| GLM-4V | 關聯 | 關聯 | |
| Glm-Edge | 關聯 | Python鏈接 | |
| glm-gedge-v | 關聯 | ||
| Mistral | 關聯 | 關聯 | |
| 混音 | 關聯 | 關聯 | |
| 鶻 | 關聯 | 關聯 | |
| MPT | 關聯 | 關聯 | |
| Dolly-V1 | 關聯 | 關聯 | |
| Dolly-V2 | 關聯 | 關聯 | |
| 補充代碼 | 關聯 | 關聯 | |
| Redpajama | link1,link2 | ||
| 鳳凰 | link1,link2 | ||
| Starcoder | link1,link2 | 關聯 | |
| Baichuan | 關聯 | 關聯 | |
| Baichuan2 | 關聯 | 關聯 | Python鏈接 |
| Internlm | 關聯 | 關聯 | |
| internvl2 | 關聯 | ||
| QWEN | 關聯 | 關聯 | |
| Qwen1.5 | 關聯 | 關聯 | |
| qwen2 | 關聯 | 關聯 | Python鏈接,C ++鏈接 |
| qwen2.5 | 關聯 | Python鏈接,C ++鏈接 | |
| qwen-vl | 關聯 | 關聯 | |
| qwen2-vl | 關聯 | ||
| qwen2-audio | 關聯 | ||
| 阿奎拉 | 關聯 | 關聯 | |
| Aquila2 | 關聯 | 關聯 | |
| 苔蘚 | 關聯 | ||
| 耳語 | 關聯 | 關聯 | |
| PHI-1_5 | 關聯 | 關聯 | |
| Flan-T5 | 關聯 | 關聯 | |
| llava | 關聯 | 關聯 | |
| codellama | 關聯 | 關聯 | |
| Skywork | 關聯 | ||
| internlm-xcomposer | 關聯 | ||
| WizardCoder-Python | 關聯 | ||
| codeshell | 關聯 | ||
| 富尤 | 關聯 | ||
| 扭曲 | 關聯 | 關聯 | |
| 是的 | 關聯 | 關聯 | |
| Bluelm | 關聯 | 關聯 | |
| 曼巴 | 關聯 | 關聯 | |
| 太陽的 | 關聯 | 關聯 | |
| phixtral | 關聯 | 關聯 | |
| Internlm2 | 關聯 | 關聯 | |
| RWKV4 | 關聯 | ||
| RWKV5 | 關聯 | ||
| 吠 | 關聯 | 關聯 | |
| SpeechT5 | 關聯 | ||
| DeepSeek-Moe | 關聯 | ||
| Ziya編碼-34B-V1.0 | 關聯 | ||
| PHI-2 | 關聯 | 關聯 | |
| PHI-3 | 關聯 | 關聯 | |
| phi-3 vision | 關聯 | 關聯 | |
| Yuan2 | 關聯 | 關聯 | |
| 芽 | 關聯 | 關聯 | |
| Gemma2 | 關聯 | ||
| DECILM-7B | 關聯 | 關聯 | |
| DeepSeek | 關聯 | 關聯 | |
| 穩定 | 關聯 | 關聯 | |
| 編碼 | 關聯 | 關聯 | |
| Command-r/cohere | 關聯 | 關聯 | |
| Codegeex2 | 關聯 | 關聯 | |
| minicpm | 關聯 | 關聯 | Python鏈接,C ++鏈接 |
| minicpm3 | 關聯 | ||
| minicpm-v | 關聯 | ||
| Minicpm-V-2 | 關聯 | 關聯 | |
| minicpm-llama3-V-2_5 | 關聯 | Python鏈接 | |
| minicpm-v-2_6 | 關聯 | 關聯 | Python鏈接 |
| 可stableifusion | 關聯 | ||
| BCE插入式-BASE-V1 | Python鏈接 | ||
| specy_paraformer-large | Python鏈接 |
性能因使用,配置和其他因素而異。 ipex-llm可能無法在非智能產品上優化相同的程度。在www.intel.com/performanceIndex上了解更多信息。 ↩2