Importante
bigdl-llm agora se tornou ipex-llm (consulte o guia de migração aqui); Você pode encontrar o projeto BigDL original aqui.
<Inglês | 中文>
IPEX-LLM é uma biblioteca de aceleração do LLM para GPU Intel (por exemplo, PC local com IGPU, GPU discreto, como ARC, FLEX e MAX) , NPU e CPU 1 .
Observação
llama.cpp , transformers , bitsandbytes , vLLM , qlora , AutoGPTQ , AutoAWQ , etc.ipex-llm (eg, Llama, Phi, Mistral, Mixtral, Whisper, Qwen, MiniCPM, Qwen-VL, MiniCPM-V and more), with state-of-art LLM optimizations , XPU acceleration and low-bit (FP8/FP6/FP4/INT4) support ; Veja a lista completa aqui. ipex-llm na Intel GPU.ipex-llm agora suporta axolotl para o LLM Finetuning na Intel GPU; Veja o Início Quick aqui.ipex-llm , porção e finetuning usando as imagens do Docker .ipex-llm no Windows usando apenas " um comando ".ipex-llm ; Veja o Início Quick aqui.llama.cpp e ollama com ipex-llm ; Veja o Início Quick aqui.ipex-llm agora suporta llama 3 na Intel GPU e na CPU.ipex-llm agora fornece interface C ++, que pode ser usada como um back-end acelerado para executar llama.cpp e ollama na Intel GPU.bigdl-llm agora se tornou ipex-llm (consulte o guia de migração aqui); Você pode encontrar o projeto BigDL original aqui.ipex-llm agora suporta carregando diretamente o modelo do ModelsCope (魔搭).ipex-llm Adicionado suporte INT2 inicial (baseado no mecanismo LLAMA.CPP IQ2), o que possibilita a execução de LLM de grande porte (por exemplo, Mixtral-8x7b) na GPU Intel com VRAM de 16 GB.ipex-llm através da GUI da geração de texto-geração-webui.ipex-llm agora suporta a decodificação auto-especulativa , que na prática traz ~ 30% de aceleração para a latência de inferência FP16 e BF16 na GPU e CPU da Intel, respectivamente.ipex-llm agora suporta uma lista abrangente de Finetuning LLM na Intel GPU (incluindo Lora, Qlora, DPO, Qa-Lora e Relora).ipex-llm QLORA, conseguimos o LLAMA2-7B FINETUNE em 21 minutos e LLAMA2-70B em 3,14 horas no 8 Intel Max 1550 GPU para Standford-Alpaca (consulte o blog aqui).ipex-llm agora suporta Relora (consulte "Relora: Treinamento de alto rank através de atualizações de baixo rank" ).ipex-llm agora suporta Mixtral-8x7b na GPU Intel e na CPU.ipex-llm agora suporta qa-lora (consulte "QA-lora: adaptação de baixo rank com consciência de quantização de modelos de idiomas grandes" ).ipex-llm agora suporta a inferência FP8 e FP4 na GPU Intel.ipex-llm .ipex-llm agora suporta lotes contínuos do VLLM na GPU Intel e na CPU.ipex-llm agora suporta Qlora Finetuning na Intel GPU e na CPU.ipex-llm agora suporta o FastChat que serve na Intel CPU e GPU.ipex-llm agora suporta Intel GPU (incluindo IGPU, ARC, Flex e Max).ipex-llm foi lançado. ipex-llm Consulte Demos da execução de LLMs locais na Intel Core Ultra Igpu, Intel Core Ultra NPU, GPU de arco único ou GPUs de arco de cartão múltiplo usando ipex-llm abaixo.
| Intel Core Ultra (Série 1) IGPU | Intel Core Ultra (Série 2) NPU | Intel arc dgpu | Dgpus de 2 card |
| Ollama (Mistral-7b Q4_K) | Huggingface (Llama3.2-3b sym_int4) | TextGeneation-Webui (Llama3-8b fp8) | FastChat (QWEN1.5-32B FP6) |
ipex-llmConsulte a velocidade de geração de token na Intel Core Ultra e Intel Arc GPU abaixo de 1 (e consulte [2] [3] [4] para obter mais detalhes).
Você pode seguir o guia de benchmarking para executar o desempenho ipex-llm .
Consulte o resultado da perplexidade abaixo (testado no conjunto de dados do Wikitext usando o script aqui).
| Perplexidade | sym_int4 | Q4_K | FP6 | FP8_E5M2 | FP8_E4M3 | FP16 |
|---|---|---|---|---|---|---|
| LLAMA-2-7B-CHAT-HF | 6.364 | 6.218 | 6.092 | 6.180 | 6.098 | 6.096 |
| Mistral-7B-Instruct-V0.2 | 5.365 | 5.320 | 5.270 | 5.273 | 5.246 | 5.244 |
| Baichuan2-7b-chat | 6.734 | 6.727 | 6.527 | 6.539 | 6.488 | 6.508 |
| Qwen1.5-7b-chat | 8.865 | 8.816 | 8.557 | 8.846 | 8.530 | 8.607 |
| LLAMA-3.1-8B-INSTRUTA | 6.705 | 6.566 | 6.338 | 6.383 | 6.325 | 6.267 |
| Gemma-2-9b-it | 7.541 | 7.412 | 7.269 | 7.380 | 7.268 | 7.270 |
| Baichuan2-13b-chat | 6.313 | 6.160 | 6.070 | 6.145 | 6.086 | 6.031 |
| Lhama-2-13b-chat-hf | 5.449 | 5.422 | 5.341 | 5.384 | 5.332 | 5.329 |
| Qwen1.5-14b-chat | 7.529 | 7.520 | 7.367 | 7.504 | 7.297 | 7.334 |
ipex-llm QuickStartllama.cpp , ollama , etc., com ipex-llm na gpu Inteltransformers , LangChain , LlamaIndex , ModelScope , etc. Com ipex-llm na Intel GPUvLLM servindo com ipex-llm na gpu IntelvLLM servindo com ipex-llm na Intel CPUFastChat Servindo com ipex-llm na Intel GPUipex-llm em Python usando o VSCODE na Intel GPUipex-llm na Intel NPU em Python e C ++ipex-llm ) na Intel GPUipex-llm ) na Intel GPUipex-llm ) na Intel GPU para Windows e Linuxipex-llm em vllm na Intel GPU e CPUipex-llm no fastchat que serve na Intel GPU e CPUipex-llm SERVIÇÃO NO MULTIMAipex-llm em oobabooga webuiipex-llm em Axolotl para LLM Finetuningipex-llm na Intel CPU e GPUGraphRAG da Microsoft usando LLM local com ipex-llmRAGFlow ( um motor de pano de código aberto ) com ipex-llmLangChain-Chatchat ( QA da base de conhecimento usando o pipeline RAG ) com ipex-llmContinue (codificando copilot em vscode) com ipex-llmOpen WebUI com ipex-llmPrivateGPT para interagir com documentos com ipex-llmipex-llm em Dify ( plataforma de desenvolvimento de aplicativos LLM pronta para produção )ipex-llm no Windows com Intel GPUipex-llm no Linux com a Intel GPUipex-llm de baixo bit (int4/fp4/fp6/int8/fp8/fp16/etc.)ipex-llmipex-llmipex-llm Mais de 70 modelos foram otimizados/verificados no ipex-llm , incluindo llama/llama2, Mistral, Mixtral, Gemma, Llava, Whisper, Chatglm2/Chatglm3, Baichuan/Baichuan2, Qwen/Qwen-1.5, Internlm ; Veja a lista abaixo.
| Modelo | Exemplo da CPU | Exemplo de GPU | Exemplo da NPU |
|---|---|---|---|
| Lhama | Link1, link2 | link | |
| LLAMA 2 | Link1, link2 | link | Link python, link c ++ |
| LLAMA 3 | link | link | Link python, link c ++ |
| LLAMA 3.1 | link | link | |
| LLAMA 3.2 | link | Link python, link c ++ | |
| LLAMA 3.2-VISÃO | link | ||
| Chatglm | link | ||
| Chatglm2 | link | link | |
| Chatglm3 | link | link | |
| GLM-4 | link | link | |
| GLM-4V | link | link | |
| Glm-Edge | link | Python Link | |
| Glm-Edge-V | link | ||
| Mistral | link | link | |
| Mixtral | link | link | |
| Falcão | link | link | |
| Mpt | link | link | |
| Dolly-v1 | link | link | |
| Dolly-v2 | link | link | |
| Código de replicação | link | link | |
| Redpajama | Link1, link2 | ||
| Fênix | Link1, link2 | ||
| Starcoder | Link1, link2 | link | |
| Baichuan | link | link | |
| Baichuan2 | link | link | Python Link |
| Internlm | link | link | |
| Internvl2 | link | ||
| Qwen | link | link | |
| Qwen1.5 | link | link | |
| Qwen2 | link | link | Link python, link c ++ |
| Qwen2.5 | link | Link python, link c ++ | |
| QWEN-VL | link | link | |
| QWEN2-VL | link | ||
| QWEN2-AUDIO | link | ||
| Aquila | link | link | |
| Aquila2 | link | link | |
| MUSGO | link | ||
| Sussurrar | link | link | |
| Phi-1_5 | link | link | |
| Flan-t5 | link | link | |
| Llava | link | link | |
| Codellama | link | link | |
| Skywork | link | ||
| Internlm-xcomposer | link | ||
| WizardCoder-Python | link | ||
| Codeshell | link | ||
| Fuyu | link | ||
| Whisper destil | link | link | |
| Yi | link | link | |
| Bluelm | link | link | |
| Mamba | link | link | |
| SOLAR | link | link | |
| Phixtral | link | link | |
| InternLM2 | link | link | |
| Rwkv4 | link | ||
| Rwkv5 | link | ||
| Latido | link | link | |
| Discurso5 | link | ||
| Deepseek-moe | link | ||
| Ziya-coding-34b-v1.0 | link | ||
| Phi-2 | link | link | |
| Phi-3 | link | link | |
| Phi-3-Vision | link | link | |
| Yuan2 | link | link | |
| Gemma | link | link | |
| Gemma2 | link | ||
| Decilme-7b | link | link | |
| Deepseek | link | link | |
| Stablelm | link | link | |
| CodeGEMMA | link | link | |
| Command-r/coere | link | link | |
| Codegeex2 | link | link | |
| Minicpm | link | link | Link python, link c ++ |
| Minicpm3 | link | ||
| Minicpm-v | link | ||
| Minicpm-V-2 | link | link | |
| Minicpm-llama3-v-2_5 | link | Python Link | |
| Minicpm-v-2_6 | link | link | Python Link |
| StableDIFFUSTION | link | ||
| BCE-Embetingding-Base-V1 | Python Link | ||
| Discurso_paraformer-large | Python Link |
O desempenho varia de acordo com o uso, a configuração e outros fatores. ipex-llm pode não otimizar no mesmo grau para produtos que não são inteln. Saiba mais em www.intel.com/performanceIndex. ↩ ↩ 2