ipex llmダウンロード-IPEX ipex llmソースコードのダウンロード

ipex llm

パイソン

IPEX-LLM release 2.1.0

ダウンロード

重要

bigdl-llmは現在ipex-llmになりました（こちらの移行ガイドを参照）。元のBigDLプロジェクトはこちらで見つけることができます。

？ PytorchのためのIntel®LLMライブラリ*

<英語| 中文>

IPEX-LLMは、Intel GPUのLLM加速ライブラリ（例えば、IGPUを備えたローカルPC、ARC、FLEX、MAXなどの離散GPU） 、NPU、CPU ^1です。

注記

llama.cpp 、 transformers 、 bitsandbytes 、 vLLM 、 qlora 、 AutoGPTQ 、 AutoAWQなどの優れた作品の上に構築されています。
Llama.cpp、Ollama、Huggingface Transformers、Langchain、Lamaindex、Vllm、Text-Generation-Webui、deepspeed-autotp、fastchat、axolotlとのシームレスな統合を提供します。
70+ models have been optimized/verified on ipex-llm (eg, Llama, Phi, Mistral, Mixtral, Whisper, Qwen, MiniCPM, Qwen-VL, MiniCPM-V and more), with state-of-art LLM optimizations , XPU acceleration and low-bit (FP8/FP6/FP4/INT4) support ;こちらの完全なリストをご覧ください。

`ipex-llm`デモ

ipex-llmを使用して、Intel Core Ultra IGPU、Intel Core Ultra NPU、シングルカードアークGPU、またはマルチカードアークGPUでローカルLLMを実行するデモを参照してください。

Intel Core Ultra（シリーズ1）Igpu	Intel Core Ultra（シリーズ2）NPU	Intel Arc DGPU	2カードインテルアークDGPUS

オラマ（Mistral-7B Q4_K）	ハギングフェイス（llama3.2-3b sym_int4）	TextGeneration-Webui （llama3-8b fp8）	FastChat （QWEN1.5-32B FP6）

`ipex-llm`パフォーマンス

¹未満のIntel Core UltraおよびIntel Arc GPUのトークン生成速度を参照してください（詳細については[2] [3] [4]を参照してください）。

ベンチマークガイドに従って、 ipex-llmパフォーマンスベンチマークを自分で実行できます。

モデルの精度

以下の困惑の結果を参照してください（ここでスクリプトを使用してWikitextデータセットでテストされています）。

困惑	sym_int4	Q4_K	FP6	FP8_E5M2	FP8_E4M3	FP16
llama-2-7b-chat-hf	6.364	6.218	6.092	6.180	6.098	6.096
Mistral-7B-Instruct-V0.2	5.365	5.320	5.270	5.273	5.246	5.244
Baichuan2-7b-chat	6.734	6.727	6.527	6.539	6.488	6.508
qwen1.5-7b-chat	8.865	8.816	8.557	8.846	8.530	8.607
llama-3.1-8b-instruct	6.705	6.566	6.338	6.383	6.325	6.267
gemma-2-9b-it	7.541	7.412	7.269	7.380	7.268	7.270
Baichuan2-13b-chat	6.313	6.160	6.070	6.145	6.086	6.031
llama-2-13b-chat-hf	5.449	5.422	5.341	5.384	5.332	5.329
qwen1.5-14b-chat	7.529	7.520	7.367	7.504	7.297	7.334

`ipex-llm` QuickStart

Docker

C ++のGPU推論： llama.cpp 、 ollamaなどを実行していますipex-llm
PythonでのGPU推論：Huggingface transformers 、 LangChain 、 LlamaIndex 、 ModelScopeなどを実行していますipex-llm
GPUのVLLM：Intel GPUでipex-llmを使用してvLLM実行する
CPUのVLLM：Intel CPUでipex-llmを使用してvLLM実行する
GPUのFastChat：Intel GPUでipex-llmを使用してFastChat実行しています
GPUのVSCODE：Intel GPUでVSCodeを使用してPythonでipex-llmアプリケーションを実行および開発する

使用

NPU：PythonとC ++の両方でIntel NPUでipex-llm実行しています
llama.cpp： llama.cppを実行している（ ipex-llmのC ++インターフェイスを使用）Intel GPU
Ollama：Intel GPUでOllama （ ipex-llmのC ++インターフェイスを使用）を実行する
Pytorch/Huggingface： Pytorch 、 Huggingface 、 Langchain 、 Llamaindexなどの実行（ ipex-llmのPythonインターフェイスを使用）WindowsおよびLinuxのIntel GPU上
VLLM：Intel GPUとCPUの両方でVLLMでipex-llmを実行しています
FastChat：Intel GPUとCPUの両方でFASTCHATでipex-llmを実行しています
複数のIntel GPUでのサービング：DeepSpeed AutoTPとFastAPIを活用することにより、複数のIntel GPUでサービングするipex-llm実行する
Text-Generation-Webui： oobabooga WebUIでipex-llm実行しています
Axolotl：LLM FinetuningのためにAxolotlでipex-llmを実行します
ベンチマーク：Intel CPUおよびGPUでのipex-llmのベンチマークの実行（レイテンシおよびスループット）ベンチマーク

アプリケーション

GraphRag： ipex-llmを使用してローカルLLMを使用してMicrosoftのGraphRAG実行します
Ragflow： ipex-llmを使用したRAGFlow （オープンソースラグエンジン）を実行する
langchain-chatchat： ipex-llmを備えたLangChain-Chatchat （ rag pipelineを使用したナレッジベースqa ）を実行する
Coding Copilot： ipex-llmを使用してContinue （vscodeでCopilotをコーディング）
Open WebUI： ipex-llmでOpen WebUI実行します
privategpt： PrivateGPTを実行して、 ipex-llmを使用してドキュメントと対話します
Difyプラットフォーム： Difyでipex-llmを実行する（生産対応LLMアプリ開発プラットフォーム）

インストール

Windows GPU：Intel GPUを使用してWindowsにipex-llmをインストールします
Linux GPU：Intel GPUを使用してLinuxにipex-llmをインストールします
詳細については、完全なインストールガイドを参照してください

コードの例

低ビット推論
- Int4推論：Intel GPUおよびCPUのINT4 LLM推論
- FP8/FP6/FP4推論：Intel GPU上のFP8 、 FP6 、 FP4 LLM推論
- Int8推論：Intel GPUおよびCPUのINT8 LLM推論
- INT2 INTEL GPUのInt2 LLM推論（llama.cpp IQ2メカニズムに基づく）
FP16/BF16推論
- Intel GPUでのFP16 LLM推論。
- Intel CPUでのBF16 LLM推論。
分散推論
- Intel GPUのパイプライン並列推論
- Intel GPUのDeepSpeed AutoTP推論
保存してロードします
- 低ビットモデル： ipex-llm低ビットモデルの保存とロード（INT4/FP4/FP6/INT8/FP8/FP16/など）
- GGUF：GGUFモデルをipex-llmに直接ロードします
- AWQ：AWQモデルをipex-llmに直接ロードします
- GPTQ：GPTQモデルをipex-llmに直接ロードします
微調整
- LORA、QLORA、DPO、QA-LORA、RERORAを含むIntel GPUでのLLM Finetuning
- Intel CPUでのQlora Finetuning
コミュニティライブラリとの統合
- ハギングフェイストランス
- 標準のPytorchモデル
- ラングチェーン
- llamaindex
- deepspeed-autotp
- axolotl
- Huggingface peft
- Huggingface Trl
- オートゲン
- モードスコープ
チュートリアル

APIドキュメント

ハギングフェイストランススタイルAPI（自動クラス）
任意のPytorchモデルのAPI

よくある質問

FAQとトラブルシューティング

検証済みモデル

Llama/Llama2、Mistral、Mixtral、Gemma、Llava、Whisper、Chatglm2/Chatglm3、Baichuan/Baichuan2、Qwen/Qwen-1.5、Internlmなどを含む70以上のモデルがipex-llmで最適化/検証されています。以下のリストを参照してください。

モデル	CPUの例	GPUの例	NPUの例
ラマ	link1、link2	リンク
ラマ2	link1、link2	リンク	Pythonリンク、C ++リンク
ラマ3	リンク	リンク	Pythonリンク、C ++リンク
ラマ3.1	リンク	リンク
ラマ3.2		リンク	Pythonリンク、C ++リンク
llama 3.2-vision		リンク
chatglm	リンク
chatglm2	リンク	リンク
chatglm3	リンク	リンク
GLM-4	リンク	リンク
GLM-4V	リンク	リンク
GLM-EDED		リンク	Pythonリンク
GLM-EDED-V		リンク
ミストラル	リンク	リンク
Mixtral	リンク	リンク
ファルコン	リンク	リンク
MPT	リンク	リンク
Dolly-V1	リンク	リンク
Dolly-V2	リンク	リンク
コードを返信します	リンク	リンク
レッドパジャマ	link1、link2
フェニックス	link1、link2
スターコダー	link1、link2	リンク
バイチュアン	リンク	リンク
Baichuan2	リンク	リンク	Pythonリンク
internlm	リンク	リンク
internvl2		リンク
Qwen	リンク	リンク
QWEN1.5	リンク	リンク
QWEN2	リンク	リンク	Pythonリンク、C ++リンク
QWEN2.5		リンク	Pythonリンク、C ++リンク
QWEN-VL	リンク	リンク
QWEN2-VL		リンク
QWEN2-AUDIO		リンク
アクイラ	リンク	リンク
Aquila2	リンク	リンク
苔	リンク
ささやきます	リンク	リンク
PHI-1_5	リンク	リンク
flan-t5	リンク	リンク
llava	リンク	リンク
コデラマ	リンク	リンク
スカイワーク	リンク
internlm-xcomposer	リンク
wizardcoder-python	リンク
コードシェル	リンク
fuyu	リンク
distil-whisper	リンク	リンク
yi	リンク	リンク
Bluelm	リンク	リンク
マンバ	リンク	リンク
太陽	リンク	リンク
Phixtral	リンク	リンク
internlm2	リンク	リンク
rwkv4		リンク
RWKV5		リンク
吠える	リンク	リンク
speecht5		リンク
deepseek-moe	リンク
Ziya-Coding-34B-V1.0	リンク
PHI-2	リンク	リンク
PHI-3	リンク	リンク
Phi-3-vision	リンク	リンク
yuan2	リンク	リンク
ジェマ	リンク	リンク
gemma2		リンク
デシルム-7b	リンク	リンク
deepseek	リンク	リンク
Stablelm	リンク	リンク
codegemma	リンク	リンク
command-r/cohere	リンク	リンク
CodeGeex2	リンク	リンク
Minicpm	リンク	リンク	Pythonリンク、C ++リンク
minicpm3		リンク
MINICPM-V		リンク
MINICPM-V-2	リンク	リンク
MINICPM-llama3-v-2_5		リンク	Pythonリンク
MINICPM-V-2_6	リンク	リンク	Pythonリンク
stablediffusion		リンク
BCE-embedding-base-v1			Pythonリンク
speech_paraformer-large			Pythonリンク

サポートを受けてください

githubの問題を開いてバグを報告するか、機能リクエストを提起してください
GitHub Security Advisoryのドラフトを開くことにより、脆弱性を報告してください

パフォーマンスは、使用、構成、その他の要因によって異なります。 ipex-llm非intel製品に対して同じ程度に最適化することはできません。詳細については、www.intel.com/performanceindexをご覧ください。 ^↩2

拡大する

追加情報

バージョン IPEX-LLM release 2.1.0
タイプパイソン
更新時間 2025-07-12
サイズ 4.9MB
から Github

ipex llm

？ PytorchのためのIntel®LLMライブラリ*

最新のアップデート

`ipex-llm`デモ

`ipex-llm`パフォーマンス

モデルの精度