สำคัญ
bigdl-llm ได้กลายเป็น ipex-llm (ดูคู่มือการย้ายถิ่นที่นี่); คุณอาจพบโครงการ BigDL ดั้งเดิมที่นี่
<ภาษาอังกฤษ | 中文>
IPEX-LLM เป็นไลบรารีการเร่งความเร็ว LLM สำหรับ Intel GPU (เช่นพีซีในท้องถิ่นที่มี IGPU, GPU แบบไม่ต่อเนื่องเช่น ARC, Flex และ Max) , NPU และ CPU 1
บันทึก
llama.cpp , transformers , bitsandbytes , vLLM , qlora , AutoGPTQ , AutoAWQ ฯลฯipex-llm (เช่น llama, phi, mistral, mixtral, Whisper, qwen, minicpm, qwen-vl, minicpm-v และอื่น ๆ ) ด้วย การเพิ่มประสิทธิภาพ LLM ที่ ไม่ สมบูรณ์ ดูรายการทั้งหมดที่นี่ ipex-llm บน Intel GPUipex-llm รองรับ Axolotl สำหรับ LLM finetuning บน Intel GPU; ดู Quickstart ที่นี่ipex-llm ได้อย่างง่ายดายการให้บริการและการปรับแต่งโดยใช้ภาพ นักเทียบท่าipex-llm บน Windows โดยใช้ " หนึ่งคำสั่ง "ipex-llm ; ดู Quickstart ที่นี่llama.cpp และ ollama ด้วย ipex-llm ; ดู Quickstart ที่นี่ipex-llm รองรับ Llama 3 ทั้งใน Intel GPU และ CPUipex-llm ให้อินเทอร์เฟซ C ++ ซึ่งสามารถใช้เป็นแบ็กเอนด์เร่งสำหรับการใช้งาน llama.cpp และ Ollama บน Intel GPUbigdl-llm ได้กลายเป็น ipex-llm (ดูคู่มือการย้ายถิ่นที่นี่); คุณอาจพบโครงการ BigDL ดั้งเดิมที่นี่ipex-llm รองรับการโหลดแบบจำลองโดยตรงจาก ModelsCope (魔搭)ipex-llm เพิ่มการสนับสนุน INT2 เริ่มต้น (ใช้กลไก LLAMA.CPP IQ2) ซึ่งทำให้สามารถใช้ LLM ขนาดใหญ่ (เช่น MixTRAL-8X7B) บน Intel GPU ด้วย 16GB VRAMipex-llm ผ่านการสร้างข้อความ Gui Guiipex-llm รองรับ การถอดรหัสแบบแยกตัวเอง ซึ่งในทางปฏิบัติจะนำ การเร่งความเร็ว ~ 30% สำหรับ FP16 และ BF16 การอนุมานแฝงใน Intel GPU และ CPU ตามลำดับipex-llm รองรับรายการที่ครอบคลุมของ LLM finetuning บน Intel GPU (รวมถึง Lora, Qlora, DPO, Qa-Lora และ Relora)ipex-llm Qlora เราจัดการเพื่อ Finetune Llama2-7b ใน 21 นาที และ Llama2-70b ใน 3.14 ชั่วโมง ใน 8 Intel Max 1550 GPU สำหรับ Standford-Alpaca (ดูบล็อกที่นี่)ipex-llm รองรับ Relora (ดู "Relora: การฝึกอบรมระดับสูงผ่านการอัปเดตระดับต่ำ" )ipex-llm รองรับ MixTral-8x7b ทั้งใน Intel GPU และ CPUipex-llm รองรับ QA-LORA (ดู "QA-LORA: การปรับระดับการปรับระดับต่ำของแบบจำลองภาษาขนาดใหญ่" )ipex-llm รองรับการอนุมาน FP8 และ FP4 บน Intel GPUipex-llm พร้อมใช้งานipex-llm รองรับการแบตช์ต่อเนื่อง VLLM ทั้งใน Intel GPU และ CPUipex-llm รองรับ Qlora finetuning ทั้งใน Intel GPU และ CPUipex-llm รองรับ FastChat ที่ให้บริการทั้ง Intel CPU และ GPUipex-llm รองรับ Intel GPU (รวมถึง IGPU, ARC, Flex และ Max)ipex-llm ได้รับการปล่อยตัว ipex-llm ดูการสาธิตของการใช้งาน LLMS ในท้องถิ่น บน Intel Core Ultra IGPU, Intel Core Ultra NPU, อาร์คการ์ดเดี่ยว GPU หรือ GPU อาร์คหลายการ์ด โดยใช้ ipex-llm ด้านล่าง
| Intel Core Ultra (ซีรี่ส์ 1) IGPU | Intel Core Ultra (Series 2) NPU | Intel Arc DGPU | 2 การ์ด Intel Arc DGPUS |
| โอลลา (MISTRAL-7B Q4_K) | กอด (llama3.2-3b sym_int4) | TextGeneration-Webui (LLAMA3-8B FP8) | Fastchat (QWEN1.5-32B FP6) |
ipex-llmดู ความเร็วในการสร้างโทเค็น บน Intel Core Ultra และ Intel Arc GPU ต่ำกว่า 1 (และอ้างถึง [2] [3] [4] สำหรับรายละเอียดเพิ่มเติม)
คุณสามารถทำตามคู่มือการเปรียบเทียบเพื่อเรียกใช้มาตรฐานประสิทธิภาพ ipex-llm ด้วยตัวคุณเอง
โปรดดูผลลัพธ์ ที่น่าพิศวง ด้านล่าง (ทดสอบในชุดข้อมูล Wikitext โดยใช้สคริปต์ที่นี่)
| ความงุนงง | sym_int4 | Q4_K | FP6 | FP8_E5M2 | FP8_E4M3 | FP16 |
|---|---|---|---|---|---|---|
| llama-2-7b-chat-hf | 6.364 | 6.218 | 6.092 | 6.180 | 6.098 | 6.096 |
| MISTRAL-7B-Instruct-V0.2 | 5.365 | 5.320 | 5.270 | 5.273 | 5.246 | 5.244 |
| Baichuan2-7b-Chat | 6.734 | 6.727 | 6.527 | 6.539 | 6.488 | 6.508 |
| QWEN1.5-7B-Chat | 8.865 | 8.816 | 8.557 | 8.846 | 8.530 | 8.607 |
| LLAMA-3.1-8B-Instruct | 6.705 | 6.566 | 6.338 | 6.383 | 6.325 | 6.267 |
| Gemma-2-9b-it | 7.541 | 7.412 | 7.269 | 7.380 | 7.268 | 7.270 |
| Baichuan2-13b-chat | 6.313 | 6.160 | 6.070 | 6.145 | 6.086 | 6.031 |
| llama-2-13b-chat-hf | 5.449 | 5.422 | 5.341 | 5.384 | 5.332 | 5.329 |
| QWEN1.5-14B-Chat | 7.529 | 7.520 | 7.367 | 7.504 | 7.297 | 7.334 |
ipex-llm Quickstartllama.cpp , ollama ฯลฯ ด้วย ipex-llm บน Intel GPUtransformers Huggingface, LangChain , LlamaIndex , ModelScope ฯลฯ ด้วย ipex-llm บน Intel GPUvLLM ที่ให้บริการด้วย ipex-llm บน Intel GPUvLLM ที่ให้บริการด้วย ipex-llm บน Intel CPUFastChat ที่ให้บริการด้วย ipex-llm บน Intel GPUipex-llm ใน Python โดยใช้ VSCODE บน Intel GPUipex-llm บน Intel NPU ทั้งใน Python และ C ++ipex-llm ) บน Intel GPUipex-llm ) บน Intel GPUipex-llm ) บน Intel GPU สำหรับ Windows และ Linuxipex-llm ใน vllm บนทั้ง Intel GPU และ CPUipex-llm ใน FastChat ที่ให้บริการบนทั้ง Intel GPU และ CPUipex-llm ที่ให้บริการบน Intel GPU หลายตัว โดยใช้ประโยชน์จาก DeepSpeed AutoTP และ Fastapiipex-llm ใน oobabooga webuiipex-llm ใน axolotl สำหรับ llm finetuningipex-llm บน Intel CPU และ GPUGraphRAG ของ Microsoft โดยใช้ LLM ในท้องถิ่นด้วย ipex-llmRAGFlow ( เครื่องยนต์ Rag โอเพนซอร์ซ ) พร้อม ipex-llmLangChain-Chatchat ( ฐานความรู้ QA โดยใช้ไปป์ไลน์ Rag ) กับ ipex-llmContinue (การเข้ารหัส copilot ใน vScode) ด้วย ipex-llmOpen WebUI ด้วย ipex-llmPrivateGPT เพื่อโต้ตอบกับเอกสารด้วย ipex-llmipex-llm ใน Dify ( แพลตฟอร์มการพัฒนาแอพ LLM พร้อมการผลิต )ipex-llm บน Windows ด้วย Intel GPUipex-llm บน linux ด้วย Intel GPUipex-llm Low-Bit (INT4/FP4/FP6/INT8/FP8/FP16/ฯลฯ )ipex-llmipex-llmipex-llm กว่า 70 รุ่นได้รับการปรับให้เหมาะสม/ตรวจสอบบน ipex-llm รวมถึง Llama/Llama2, Mistral, Mixtral, Gemma, Llava, Whisper, Chatglm2/Chatglm3, Baichuan/Baichuan2, Qwen/Qwen-1.5, Internlm และอื่น ๆ ; ดูรายการด้านล่าง
| แบบอย่าง | ตัวอย่าง CPU | ตัวอย่าง GPU | ตัวอย่าง NPU |
|---|---|---|---|
| ลาม่า | link1, link2 | การเชื่อมโยง | |
| ลามะ 2 | link1, link2 | การเชื่อมโยง | ลิงค์ Python, C ++ ลิงค์ |
| ลามะ 3 | การเชื่อมโยง | การเชื่อมโยง | ลิงค์ Python, C ++ ลิงค์ |
| ลามะ 3.1 | การเชื่อมโยง | การเชื่อมโยง | |
| ลามะ 3.2 | การเชื่อมโยง | ลิงค์ Python, C ++ ลิงค์ | |
| Llama 3.2-Vision | การเชื่อมโยง | ||
| chatglm | การเชื่อมโยง | ||
| chatglm2 | การเชื่อมโยง | การเชื่อมโยง | |
| chatglm3 | การเชื่อมโยง | การเชื่อมโยง | |
| GLM-4 | การเชื่อมโยง | การเชื่อมโยง | |
| GLM-4V | การเชื่อมโยง | การเชื่อมโยง | |
| GLM-edge | การเชื่อมโยง | ลิงค์ Python | |
| glm-edge-v | การเชื่อมโยง | ||
| ผิดพลาด | การเชื่อมโยง | การเชื่อมโยง | |
| มิกซ์ | การเชื่อมโยง | การเชื่อมโยง | |
| เหยี่ยว | การเชื่อมโยง | การเชื่อมโยง | |
| MPT | การเชื่อมโยง | การเชื่อมโยง | |
| Dolly-V1 | การเชื่อมโยง | การเชื่อมโยง | |
| Dolly-V2 | การเชื่อมโยง | การเชื่อมโยง | |
| แก้ไขรหัส | การเชื่อมโยง | การเชื่อมโยง | |
| สีแดง | link1, link2 | ||
| ฟีนิกซ์ | link1, link2 | ||
| สตาร์โคเดอร์ | link1, link2 | การเชื่อมโยง | |
| ชาวไชน่า | การเชื่อมโยง | การเชื่อมโยง | |
| Baichuan2 | การเชื่อมโยง | การเชื่อมโยง | ลิงค์ Python |
| ผู้ฝึกงาน | การเชื่อมโยง | การเชื่อมโยง | |
| InternVL2 | การเชื่อมโยง | ||
| Qwen | การเชื่อมโยง | การเชื่อมโยง | |
| Qwen1.5 | การเชื่อมโยง | การเชื่อมโยง | |
| Qwen2 | การเชื่อมโยง | การเชื่อมโยง | ลิงค์ Python, C ++ ลิงค์ |
| Qwen2.5 | การเชื่อมโยง | ลิงค์ Python, C ++ ลิงค์ | |
| qwen-vl | การเชื่อมโยง | การเชื่อมโยง | |
| QWEN2-VL | การเชื่อมโยง | ||
| Qwen2-Audio | การเชื่อมโยง | ||
| อควิลล่า | การเชื่อมโยง | การเชื่อมโยง | |
| Aquila2 | การเชื่อมโยง | การเชื่อมโยง | |
| มอส | การเชื่อมโยง | ||
| กระซิบ | การเชื่อมโยง | การเชื่อมโยง | |
| phi-1_5 | การเชื่อมโยง | การเชื่อมโยง | |
| Flan-T5 | การเชื่อมโยง | การเชื่อมโยง | |
| Llava | การเชื่อมโยง | การเชื่อมโยง | |
| คนโง่ | การเชื่อมโยง | การเชื่อมโยง | |
| เวิร์กเวิร์ก | การเชื่อมโยง | ||
| internlm-xcomposer | การเชื่อมโยง | ||
| WizardCoder-Python | การเชื่อมโยง | ||
| codeshell | การเชื่อมโยง | ||
| ฟูวู | การเชื่อมโยง | ||
| กลั่นกรอง | การเชื่อมโยง | การเชื่อมโยง | |
| ยี่ | การเชื่อมโยง | การเชื่อมโยง | |
| Bluelm | การเชื่อมโยง | การเชื่อมโยง | |
| Mamba | การเชื่อมโยง | การเชื่อมโยง | |
| แสงอาทิตย์ | การเชื่อมโยง | การเชื่อมโยง | |
| phixtral | การเชื่อมโยง | การเชื่อมโยง | |
| internlm2 | การเชื่อมโยง | การเชื่อมโยง | |
| RWKV4 | การเชื่อมโยง | ||
| RWKV5 | การเชื่อมโยง | ||
| เห่า | การเชื่อมโยง | การเชื่อมโยง | |
| คำพูด 5 | การเชื่อมโยง | ||
| Deepseek-Moe | การเชื่อมโยง | ||
| Ziya-Coding-34B-V1.0 | การเชื่อมโยง | ||
| Phi-2 | การเชื่อมโยง | การเชื่อมโยง | |
| Phi-3 | การเชื่อมโยง | การเชื่อมโยง | |
| phi-3-vision | การเชื่อมโยง | การเชื่อมโยง | |
| หยวน 2 | การเชื่อมโยง | การเชื่อมโยง | |
| อัญมณี | การเชื่อมโยง | การเชื่อมโยง | |
| Gemma2 | การเชื่อมโยง | ||
| Decilm-7b | การเชื่อมโยง | การเชื่อมโยง | |
| ลึกล้ำ | การเชื่อมโยง | การเชื่อมโยง | |
| Stablelm | การเชื่อมโยง | การเชื่อมโยง | |
| Codegemma | การเชื่อมโยง | การเชื่อมโยง | |
| Command-R/Cohere | การเชื่อมโยง | การเชื่อมโยง | |
| codegeex2 | การเชื่อมโยง | การเชื่อมโยง | |
| MINICPM | การเชื่อมโยง | การเชื่อมโยง | ลิงค์ Python, C ++ ลิงค์ |
| MINICPM3 | การเชื่อมโยง | ||
| MINICPM-V | การเชื่อมโยง | ||
| MINICPM-V-2 | การเชื่อมโยง | การเชื่อมโยง | |
| MINICPM-LLAMA3-V-2_5 | การเชื่อมโยง | ลิงค์ Python | |
| MINICPM-V-2_6 | การเชื่อมโยง | การเชื่อมโยง | ลิงค์ Python |
| StabledIffusion | การเชื่อมโยง | ||
| BCE-embedding-base-V1 | ลิงค์ Python | ||
| Speech_paraformer- ใหญ่ | ลิงค์ Python |
ประสิทธิภาพแตกต่างกันไปตามการใช้งานการกำหนดค่าและปัจจัยอื่น ๆ ipex-llm อาจไม่ปรับให้เหมาะสมในระดับเดียวกันสำหรับผลิตภัณฑ์ที่ไม่ใช่ Intel เรียนรู้เพิ่มเติมได้ที่ www.intel.com/performanceIndex ↩ 2