중요한
bigdl-llm 이제 ipex-llm 되었습니다 (여기에서 마이그레이션 안내서 참조). 여기에서 원래 BigDL 프로젝트를 찾을 수 있습니다.
<영어 | 中文>
IPEX-LLM 은 인텔 GPU 용 LLM 가속 라이브러리 (예 : IGPU가있는 로컬 PC, Arc, Flex 및 Max와 같은 이산 GPU) , NPU 및 CPU 1입니다 .
메모
llama.cpp , transformers , bitsandbytes , vLLM , qlora , AutoGPTQ , AutoAWQ 등의 훌륭한 작품 위에 제작되었습니다.ipex-llm (예 : LLAMA, PHI, MISTRAL, MIXTRAL, WHISPER, QWEN, MINICPM, QWEN-VL, MINICPM- V 등)에서 최적화 /검증되었습니다. 여기에서 전체 목록을 참조하십시오. ipex-llm 과 함께 Ragflow를 실행하는 것을 지원했습니다.ipex-llm 이제 Intel GPU에서 LLM Finetuning을위한 Axolotl을 지원합니다. 여기에서 QuickStart를 참조하십시오.ipex-llm 추론을 쉽게 실행하고 서빙 및 양조 할 수 있습니다.ipex-llm 설치할 수 있습니다.ipex-llm 사용하여 Intel GPU에서 오픈 Webui를 실행할 수 있습니다. 여기에서 QuickStart를 참조하십시오.llama.cpp 사용하여 ipex-llm ollama 사용하여 인텔 GPU에서 llama 3을 실행할 수 있습니다. 여기에서 QuickStart를 참조하십시오.ipex-llm 이제 Intel GPU 및 CPU에서 LLAMA 3을 지원합니다.ipex-llm 이제 C ++ 인터페이스를 제공하며, 이는 인텔 GPU에서 LLAMA.CPP 및 OLLAMA를 실행하기위한 가속 백엔드로 사용할 수 있습니다.bigdl-llm 이제 ipex-llm 되었습니다 (여기에서 마이그레이션 가이드 참조). 여기에서 원래 BigDL 프로젝트를 찾을 수 있습니다.ipex-llm 이제 ModelScope (魔搭)의 직접 로딩 모델을 지원합니다.ipex-llm 초기 INT2 지원 (LLAMA.CPP IQ2 메커니즘 기반)을 추가하여 16GB VRAM으로 인텔 GPU에서 대형 LLM (예 : Mixtral-8x7b)을 실행할 수있게 해줍니다.ipex-llm 사용할 수 있습니다.ipex-llm 이제 자체 구체화 디코딩을 지원하는데, 이는 실제로 인텔 GPU 및 CPU에서 FP16 및 BF16 추론 대기 시간에 대해 ~ 30%의 속도를 제공합니다.ipex-llm 이제 Intel GPU (Lora, Qlora, DPO, QA-Lora 및 Relora 포함)에서 LLM Finetuning 의 포괄적 인 목록을 지원합니다.ipex-llm QLORA를 사용하여 21 분 안에 LLAMA2-7B를 미세 조정하고 Standford-Alpaca의 경우 8 Intel Max 1550 GPU에서 3.14 시간 내에 LLAMA2-70B를 미세하게 관리했습니다 (여기 블로그 참조).ipex-llm 이제 Relora를 지원합니다 ( "Relora : 저급 업데이트를 통한 고위 교육" 참조).ipex-llm 이제 Intel GPU 및 CPU 모두에서 Mixtral-8x7b를 지원합니다.ipex-llm 이제 QA-Lora를 지원합니다 ( "QA-Lora : 대형 언어 모델의 양자화 인식 저 순위 적응" 참조).ipex-llm 이제 Intel GPU 에서 FP8 및 FP4 추론을 지원합니다.ipex-llm ] GGUF, AWQ 및 GPTQ 모델을 직접로드하는 초기 지원을 사용할 수 있습니다.ipex-llm 이제 Intel GPU 및 CPU에서 VLLM 연속 배치를 지원합니다.ipex-llm 이제 Intel GPU 및 CPU에서 Qlora Finetuning을 지원합니다.ipex-llm 이제 Intel CPU 및 GPU에서 FastChat 서빙을 지원합니다.ipex-llm 이제 인텔 GPU (IGPU, ARC, Flex 및 MAX 포함)를 지원합니다.ipex-llm 튜토리얼이 출시되었습니다. ipex-llm 데모 아래의 ipex-llm 사용하여 Intel Core Ultra IGPU, Intel Core Ultra NPU, 단일 카드 아크 GPU 또는 멀티 카드 ARC GPU에서 로컬 LLM을 실행하는 데모를 참조하십시오.
| 인텔 코어 울트라 (시리즈 1) IGPU | 인텔 코어 울트라 (시리즈 2) NPU | 인텔 아크 DGPU | 2 카드 인텔 아크 DGPUS |
| 올라마 (Mistral-7B Q4_K) | 포옹 페이스 (llama3.2-3b sym_int4) | TextGeneration-Webui (LLAMA3-8B FP8) | Fastchat (QWEN1.5-32B FP6) |
ipex-llm 성능Intel Core Ultra 및 Intel Arc GPU 의 토큰 생성 속도를 1 미만으로 참조하십시오 (자세한 내용은 [2] [3] [4]를 참조하십시오).
벤치마킹 안내서를 따라 ipex-llm 성능 벤치 마크를 실행할 수 있습니다.
아래의 당황한 결과를 참조하십시오 (여기서 스크립트를 사용하여 Wikitext 데이터 세트에서 테스트).
| 당황 | sym_int4 | Q4_K | FP6 | FP8_E5M2 | FP8_E4M3 | FP16 |
|---|---|---|---|---|---|---|
| LLAMA-2-7B-Chat-HF | 6.364 | 6.218 | 6.092 | 6.180 | 6.098 | 6.096 |
| Mistral-7B-instruct-V0.2 | 5.365 | 5.320 | 5.270 | 5.273 | 5.246 | 5.244 |
| Baichuan2-7B-Chat | 6.734 | 6.727 | 6.527 | 6.539 | 6.488 | 6.508 |
| QWEN1.5-7B-Chat | 8.865 | 8.816 | 8.557 | 8.846 | 8.530 | 8.607 |
| LLAMA-3.1-8B 강조 | 6.705 | 6.566 | 6.338 | 6.383 | 6.325 | 6.267 |
| 젬마 -2-9B-IT | 7.541 | 7.412 | 7.269 | 7.380 | 7.268 | 7.270 |
| Baichuan2-13B-Chat | 6.313 | 6.160 | 6.070 | 6.145 | 6.086 | 6.031 |
| LLAMA-2-13B-Chat-HF | 5.449 | 5.422 | 5.341 | 5.384 | 5.332 | 5.329 |
| QWEN1.5-14B-Chat | 7.529 | 7.520 | 7.367 | 7.504 | 7.297 | 7.334 |
ipex-llm QuickStartipex-llm 사용하여 llama.cpp , ollama 등을 실행합니다.ipex-llm 사용하여 Huggingface transformers , LangChain , LlamaIndex , ModelScope 등 실행ipex-llm 과 함께 제공되는 vLLM 실행ipex-llm 과 함께 제공되는 vLLM 실행ipex-llm 과 함께 FastChat 실행ipex-llm 응용 프로그램 실행 및 개발ipex-llm 실행ipex-llm 의 C ++ 인터페이스 사용 ) 실행ipex-llm 의 C ++ 인터페이스 사용 ) 실행ipex-llm 의 Python 인터페이스 사용 ) 및 Linux.ipex-llm 실행ipex-llm 실행ipex-llm 실행합니다.oobabooga Webui 에서 ipex-llm 실행합니다ipex-llm 실행합니다ipex-llm 용 실행 (대기 시간 및 처리량) 벤치 마크ipex-llm 과 함께 로컬 LLM을 사용하여 Microsoft GraphRAG 실행합니다ipex-llm 으로 RAGFlow ( 오픈 소스 래그 엔진 ) 실행ipex-llm 으로 LangChain-Chatchat ( Rag Pipeline을 사용하는 지식 기반 QA ) 실행ipex-llm 으로 Continue (VSCODE에서 Copilot 코딩) 실행ipex-llm 으로 Open WebUI 실행합니다PrivateGPT 실행하여 ipex-llm 과 문서와 상호 작용합니다Dify 에서 ipex-llm 실행 ( 생산 준비 LLM 앱 개발 플랫폼 )ipex-llm 설치합니다ipex-llm 설치ipex-llm 저지대 모델 저장 및로드 (Int4/FP4/FP6/Int8/FP8/FP16/등).ipex-llm 에 직접로드합니다ipex-llm 에 직접로드합니다ipex-llm 에 직접로드합니다 llama/llama2, mistral, mixtral, gemma, llava, chatglm2/chatglm3, baichuan/baichuan2, Qwen/qwen-15, internlm 등 70 개가 넘는 모델이 최적화/ ipex-llm 에서 최적화/검증되었습니다. 아래 목록을 참조하십시오.
| 모델 | CPU 예제 | GPU 예제 | NPU 예제 |
|---|---|---|---|
| 야마 | Link1, Link2 | 링크 | |
| 라마 2 | Link1, Link2 | 링크 | 파이썬 링크, C ++ 링크 |
| 라마 3 | 링크 | 링크 | 파이썬 링크, C ++ 링크 |
| 라마 3.1 | 링크 | 링크 | |
| 라마 3.2 | 링크 | 파이썬 링크, C ++ 링크 | |
| 라마 3.2 vision | 링크 | ||
| chatglm | 링크 | ||
| chatglm2 | 링크 | 링크 | |
| chatglm3 | 링크 | 링크 | |
| GLM-4 | 링크 | 링크 | |
| GLM-4V | 링크 | 링크 | |
| Glm-Edge | 링크 | 파이썬 링크 | |
| GLM-Edge-V | 링크 | ||
| 미스트랄 | 링크 | 링크 | |
| 믹스 트랄 | 링크 | 링크 | |
| 매 | 링크 | 링크 | |
| MPT | 링크 | 링크 | |
| 돌리 -V1 | 링크 | 링크 | |
| 돌리 -V2 | 링크 | 링크 | |
| 코드를 반복하십시오 | 링크 | 링크 | |
| 레드 파자마 | Link1, Link2 | ||
| 피닉스 | Link1, Link2 | ||
| 스타 코더 | Link1, Link2 | 링크 | |
| Baichuan | 링크 | 링크 | |
| Baichuan2 | 링크 | 링크 | 파이썬 링크 |
| internlm | 링크 | 링크 | |
| internvl2 | 링크 | ||
| Qwen | 링크 | 링크 | |
| Qwen1.5 | 링크 | 링크 | |
| Qwen2 | 링크 | 링크 | 파이썬 링크, C ++ 링크 |
| qwen2.5 | 링크 | 파이썬 링크, C ++ 링크 | |
| Qwen-VL | 링크 | 링크 | |
| QWEN2-VL | 링크 | ||
| QWEN2-AUDIO | 링크 | ||
| aquila | 링크 | 링크 | |
| aquila2 | 링크 | 링크 | |
| 이끼 | 링크 | ||
| 속삭임 | 링크 | 링크 | |
| PHI-1_5 | 링크 | 링크 | |
| FLAN-T5 | 링크 | 링크 | |
| llava | 링크 | 링크 | |
| 코델마 | 링크 | 링크 | |
| 스카이 워크 | 링크 | ||
| Internlm-xcomposer | 링크 | ||
| 마법사-파이썬 | 링크 | ||
| Codeshell | 링크 | ||
| 후유 | 링크 | ||
| Distil-Whisper | 링크 | 링크 | |
| Yi | 링크 | 링크 | |
| 블루 름 | 링크 | 링크 | |
| 맘바 | 링크 | 링크 | |
| 태양 | 링크 | 링크 | |
| phixtral | 링크 | 링크 | |
| internlm2 | 링크 | 링크 | |
| RWKV4 | 링크 | ||
| RWKV5 | 링크 | ||
| 짖다 | 링크 | 링크 | |
| SpeechT5 | 링크 | ||
| Deepseek-Moe | 링크 | ||
| Ziya 코딩 -34B-V1.0 | 링크 | ||
| PHI-2 | 링크 | 링크 | |
| PHI-3 | 링크 | 링크 | |
| Phi-3 vision | 링크 | 링크 | |
| Yuan2 | 링크 | 링크 | |
| 아체 | 링크 | 링크 | |
| 젬마 2 | 링크 | ||
| 데실 -7b | 링크 | 링크 | |
| Deepseek | 링크 | 링크 | |
| 안정 | 링크 | 링크 | |
| Codegemma | 링크 | 링크 | |
| Command-R/Cohere | 링크 | 링크 | |
| CodegeEx2 | 링크 | 링크 | |
| minicpm | 링크 | 링크 | 파이썬 링크, C ++ 링크 |
| minicpm3 | 링크 | ||
| Minicpm-v | 링크 | ||
| Minicpm-V-2 | 링크 | 링크 | |
| minicpm-llama3-v-2_5 | 링크 | 파이썬 링크 | |
| Minicpm-V-2_6 | 링크 | 링크 | 파이썬 링크 |
| 안정된 확신 | 링크 | ||
| BCE-embedding-base-v1 | 파이썬 링크 | ||
| speech_paraformer-large | 파이썬 링크 |
성능은 사용, 구성 및 기타 요인에 따라 다릅니다. ipex-llm intel이 아닌 제품에 대해 동일한 수준으로 최적화되지 않을 수 있습니다. 자세한 내용은 www.intel.com/performanceIndex에서 알아보십시오. ↩ 2