重要
bigdl-llmは現在ipex-llmになりました(こちらの移行ガイドを参照)。元のBigDLプロジェクトはこちらで見つけることができます。
<英語| 中文>
IPEX-LLMは、Intel GPUのLLM加速ライブラリ(例えば、IGPUを備えたローカルPC、ARC、FLEX、MAXなどの離散GPU) 、NPU、CPU 1です。
注記
llama.cpp 、 transformers 、 bitsandbytes 、 vLLM 、 qlora 、 AutoGPTQ 、 AutoAWQなどの優れた作品の上に構築されています。ipex-llm (eg, Llama, Phi, Mistral, Mixtral, Whisper, Qwen, MiniCPM, Qwen-VL, MiniCPM-V and more), with state-of-art LLM optimizations , XPU acceleration and low-bit (FP8/FP6/FP4/INT4) support ;こちらの完全なリストをご覧ください。 ipex-llmを使用してRagflowを実行するためのサポートを追加しました。ipex-llmは、Intel GPUでのLLM FinetuningのAxolotlをサポートしています。こちらのクイックスタートをご覧ください。ipex-llm推論、提供、および微調整を簡単に実行できるようになりました。ipex-llmをインストールできるようになりました。ipex-llmを使用してIntel GPUでOpen WebUIを実行できるようになりました。こちらのクイックスタートをご覧ください。llama.cppを使用してipex-llmを使用してollamaを使用してIntel GPUでLlama 3を実行できるようになりました。こちらのクイックスタートをご覧ください。ipex-llm 、Intel GPUとCPUの両方でLlama 3をサポートしています。ipex-llm C ++インターフェイスを提供するようになりました。これは、Intel GPUでllama.cppとOllamaを実行するための加速バックエンドとして使用できます。bigdl-llmがipex-llmになりました(ここの移行ガイドを参照)。元のBigDLプロジェクトはこちらで見つけることができます。ipex-llm 、ModelScope(魔搭)からモデルを直接読み込むことをサポートするようになりました。ipex-llm 16GB VRAMでIntel GPUで大規模LLM(Mixtral-8X7bなど)を実行できるようにするため、初期INT2サポート(LLAMA.CPP IQ2メカニズムに基づく)を追加しました。ipex-llm使用できるようになりました。ipex-llm 、自己識別的なデコードをサポートするようになりました。実際には、それぞれIntel GPUとCPUでFP16およびBF16推論のレイテンシで約30%のスピードアップをもたらします。ipex-llm 、Intel GPU(Lora、Qlora、DPO、QA-Lora、Reloraを含むLLM Finetuningの包括的なリストをサポートするようになりました。ipex-llm Qloraを使用して、Standford-Alpacaの8 Intel Max 1550 GPUで21分でLlama2-7bを、Llama2-70bを3.14時間で3.14時間獲得することができました(ブログを参照)。ipex-llm Reloraをサポートするようになりました( 「低ランクの更新によるRelora:ハイランクトレーニング」を参照)。ipex-llm 、Intel GPUとCPUの両方でMixtral-8x7Bをサポートするようになりました。ipex-llm QA-LORAをサポートするようになりました( 「QA-LORA:QUANTIZATION-AWARE LOW-RANK適応の大規模言語モデルの適応」を参照)。ipex-llm 、Intel GPUのFP8およびFP4推論をサポートするようになりました。ipex-llmに直接ロードするための初期サポートが利用可能です。ipex-llm Intel GPUとCPUの両方でVLLM連続バッチをサポートするようになりました。ipex-llm Intel GPUとCPUの両方でQlora Finetuningをサポートするようになりました。ipex-llm 、Intel CPUとGPUの両方でFastChatを提供するようになりました。ipex-llmはIntel GPU(IGPU、ARC、FLEX、MAXを含む)をサポートしています。ipex-llmチュートリアルがリリースされます。 ipex-llmデモipex-llmを使用して、Intel Core Ultra IGPU、Intel Core Ultra NPU、シングルカードアークGPU、またはマルチカードアークGPUでローカルLLMを実行するデモを参照してください。
| Intel Core Ultra(シリーズ1)Igpu | Intel Core Ultra(シリーズ2)NPU | Intel Arc DGPU | 2カードインテルアークDGPUS |
| オラマ (Mistral-7B Q4_K) | ハギングフェイス (llama3.2-3b sym_int4) | TextGeneration-Webui (llama3-8b fp8) | FastChat (QWEN1.5-32B FP6) |
ipex-llmパフォーマンス1未満のIntel Core UltraおよびIntel Arc GPUのトークン生成速度を参照してください(詳細については[2] [3] [4]を参照してください)。
ベンチマークガイドに従って、 ipex-llmパフォーマンスベンチマークを自分で実行できます。
以下の困惑の結果を参照してください(ここでスクリプトを使用してWikitextデータセットでテストされています)。
| 困惑 | sym_int4 | Q4_K | FP6 | FP8_E5M2 | FP8_E4M3 | FP16 |
|---|---|---|---|---|---|---|
| llama-2-7b-chat-hf | 6.364 | 6.218 | 6.092 | 6.180 | 6.098 | 6.096 |
| Mistral-7B-Instruct-V0.2 | 5.365 | 5.320 | 5.270 | 5.273 | 5.246 | 5.244 |
| Baichuan2-7b-chat | 6.734 | 6.727 | 6.527 | 6.539 | 6.488 | 6.508 |
| qwen1.5-7b-chat | 8.865 | 8.816 | 8.557 | 8.846 | 8.530 | 8.607 |
| llama-3.1-8b-instruct | 6.705 | 6.566 | 6.338 | 6.383 | 6.325 | 6.267 |
| gemma-2-9b-it | 7.541 | 7.412 | 7.269 | 7.380 | 7.268 | 7.270 |
| Baichuan2-13b-chat | 6.313 | 6.160 | 6.070 | 6.145 | 6.086 | 6.031 |
| llama-2-13b-chat-hf | 5.449 | 5.422 | 5.341 | 5.384 | 5.332 | 5.329 |
| qwen1.5-14b-chat | 7.529 | 7.520 | 7.367 | 7.504 | 7.297 | 7.334 |
ipex-llm QuickStartllama.cpp 、 ollamaなどを実行していますipex-llmtransformers 、 LangChain 、 LlamaIndex 、 ModelScopeなどを実行していますipex-llmipex-llmを使用してvLLM実行するipex-llmを使用してvLLM実行するipex-llmを使用してFastChat実行していますipex-llmアプリケーションを実行および開発するipex-llm実行していますipex-llmのC ++インターフェイスを使用)Intel GPUipex-llmのC ++インターフェイスを使用)を実行するipex-llmのPythonインターフェイスを使用)WindowsおよびLinuxのIntel GPU上ipex-llmを実行していますipex-llmを実行していますipex-llm実行するoobabooga WebUIでipex-llm実行していますipex-llmを実行しますipex-llmのベンチマークの実行(レイテンシおよびスループット)ベンチマークipex-llmを使用してローカルLLMを使用してMicrosoftのGraphRAG実行しますipex-llmを使用したRAGFlow (オープンソースラグエンジン)を実行するipex-llmを備えたLangChain-Chatchat ( rag pipelineを使用したナレッジベースqa )を実行するipex-llmを使用してContinue (vscodeでCopilotをコーディング)ipex-llmでOpen WebUI実行しますPrivateGPTを実行して、 ipex-llmを使用してドキュメントと対話しますDifyでipex-llmを実行する(生産対応LLMアプリ開発プラットフォーム)ipex-llmをインストールしますipex-llmをインストールしますipex-llm低ビットモデルの保存とロード(INT4/FP4/FP6/INT8/FP8/FP16/など)ipex-llmに直接ロードしますipex-llmに直接ロードしますipex-llmに直接ロードしますLlama/Llama2、Mistral、Mixtral、Gemma、Llava、Whisper、Chatglm2/Chatglm3、Baichuan/Baichuan2、Qwen/Qwen-1.5、Internlmなどを含む70以上のモデルがipex-llmで最適化/検証されています。以下のリストを参照してください。
| モデル | CPUの例 | GPUの例 | NPUの例 |
|---|---|---|---|
| ラマ | link1、link2 | リンク | |
| ラマ2 | link1、link2 | リンク | Pythonリンク、C ++リンク |
| ラマ3 | リンク | リンク | Pythonリンク、C ++リンク |
| ラマ3.1 | リンク | リンク | |
| ラマ3.2 | リンク | Pythonリンク、C ++リンク | |
| llama 3.2-vision | リンク | ||
| chatglm | リンク | ||
| chatglm2 | リンク | リンク | |
| chatglm3 | リンク | リンク | |
| GLM-4 | リンク | リンク | |
| GLM-4V | リンク | リンク | |
| GLM-EDED | リンク | Pythonリンク | |
| GLM-EDED-V | リンク | ||
| ミストラル | リンク | リンク | |
| Mixtral | リンク | リンク | |
| ファルコン | リンク | リンク | |
| MPT | リンク | リンク | |
| Dolly-V1 | リンク | リンク | |
| Dolly-V2 | リンク | リンク | |
| コードを返信します | リンク | リンク | |
| レッドパジャマ | link1、link2 | ||
| フェニックス | link1、link2 | ||
| スターコダー | link1、link2 | リンク | |
| バイチュアン | リンク | リンク | |
| Baichuan2 | リンク | リンク | Pythonリンク |
| internlm | リンク | リンク | |
| internvl2 | リンク | ||
| Qwen | リンク | リンク | |
| QWEN1.5 | リンク | リンク | |
| QWEN2 | リンク | リンク | Pythonリンク、C ++リンク |
| QWEN2.5 | リンク | Pythonリンク、C ++リンク | |
| QWEN-VL | リンク | リンク | |
| QWEN2-VL | リンク | ||
| QWEN2-AUDIO | リンク | ||
| アクイラ | リンク | リンク | |
| Aquila2 | リンク | リンク | |
| 苔 | リンク | ||
| ささやきます | リンク | リンク | |
| PHI-1_5 | リンク | リンク | |
| flan-t5 | リンク | リンク | |
| llava | リンク | リンク | |
| コデラマ | リンク | リンク | |
| スカイワーク | リンク | ||
| internlm-xcomposer | リンク | ||
| wizardcoder-python | リンク | ||
| コードシェル | リンク | ||
| fuyu | リンク | ||
| distil-whisper | リンク | リンク | |
| yi | リンク | リンク | |
| Bluelm | リンク | リンク | |
| マンバ | リンク | リンク | |
| 太陽 | リンク | リンク | |
| Phixtral | リンク | リンク | |
| internlm2 | リンク | リンク | |
| rwkv4 | リンク | ||
| RWKV5 | リンク | ||
| 吠える | リンク | リンク | |
| speecht5 | リンク | ||
| deepseek-moe | リンク | ||
| Ziya-Coding-34B-V1.0 | リンク | ||
| PHI-2 | リンク | リンク | |
| PHI-3 | リンク | リンク | |
| Phi-3-vision | リンク | リンク | |
| yuan2 | リンク | リンク | |
| ジェマ | リンク | リンク | |
| gemma2 | リンク | ||
| デシルム-7b | リンク | リンク | |
| deepseek | リンク | リンク | |
| Stablelm | リンク | リンク | |
| codegemma | リンク | リンク | |
| command-r/cohere | リンク | リンク | |
| CodeGeex2 | リンク | リンク | |
| Minicpm | リンク | リンク | Pythonリンク、C ++リンク |
| minicpm3 | リンク | ||
| MINICPM-V | リンク | ||
| MINICPM-V-2 | リンク | リンク | |
| MINICPM-llama3-v-2_5 | リンク | Pythonリンク | |
| MINICPM-V-2_6 | リンク | リンク | Pythonリンク |
| stablediffusion | リンク | ||
| BCE-embedding-base-v1 | Pythonリンク | ||
| speech_paraformer-large | Pythonリンク |
パフォーマンスは、使用、構成、その他の要因によって異なります。 ipex-llm非intel製品に対して同じ程度に最適化することはできません。詳細については、www.intel.com/performanceindexをご覧ください。 ↩2