ipex llm 다운로드 ipex llm 소스 코드 다운로드

ipex llm

파이썬

IPEX-LLM release 2.1.0

다운로드

중요한

bigdl-llm 이제 ipex-llm 되었습니다 (여기에서 마이그레이션 안내서 참조). 여기에서 원래 BigDL 프로젝트를 찾을 수 있습니다.

? Pytorch 용 Intel® LLM 라이브러리*

<영어 | 中文>

IPEX-LLM 은 인텔 GPU 용 LLM 가속 라이브러리 (예 : IGPU가있는 로컬 PC, Arc, Flex 및 Max와 같은 이산 GPU) , NPU 및 CPU ^1입니다 .

메모

llama.cpp , transformers , bitsandbytes , vLLM , qlora , AutoGPTQ , AutoAWQ 등의 훌륭한 작품 위에 제작되었습니다.
Llama.cpp, Ollama, Huggingface Transformers, Langchain, Llamaindex, Vllm, Text-Generation-Webui, Deepspeed-Autotp, Fastchat, Axolotl, Huggingf
70 개 이상의 모델은 IPEX - ipex-llm (예 : LLAMA, PHI, MISTRAL, MIXTRAL, WHISPER, QWEN, MINICPM, QWEN-VL, MINICPM- V 등)에서 최적화 /검증되었습니다. 여기에서 전체 목록을 참조하십시오.

`ipex-llm` 데모

아래의 ipex-llm 사용하여 Intel Core Ultra IGPU, Intel Core Ultra NPU, 단일 카드 아크 GPU 또는 멀티 카드 ARC GPU에서 로컬 LLM을 실행하는 데모를 참조하십시오.

인텔 코어 울트라 (시리즈 1) IGPU	인텔 코어 울트라 (시리즈 2) NPU	인텔 아크 DGPU	2 카드 인텔 아크 DGPUS

올라마 (Mistral-7B Q4_K)	포옹 페이스 (llama3.2-3b sym_int4)	TextGeneration-Webui (LLAMA3-8B FP8)	Fastchat (QWEN1.5-32B FP6)

`ipex-llm` 성능

Intel Core Ultra 및 Intel Arc GPU 의 토큰 생성 속도를 ¹ 미만으로 참조하십시오 (자세한 내용은 [2] [3] [4]를 참조하십시오).

벤치마킹 안내서를 따라 ipex-llm 성능 벤치 마크를 실행할 수 있습니다.

모델 정확도

아래의 당황한 결과를 참조하십시오 (여기서 스크립트를 사용하여 Wikitext 데이터 세트에서 테스트).

당황	sym_int4	Q4_K	FP6	FP8_E5M2	FP8_E4M3	FP16
LLAMA-2-7B-Chat-HF	6.364	6.218	6.092	6.180	6.098	6.096
Mistral-7B-instruct-V0.2	5.365	5.320	5.270	5.273	5.246	5.244
Baichuan2-7B-Chat	6.734	6.727	6.527	6.539	6.488	6.508
QWEN1.5-7B-Chat	8.865	8.816	8.557	8.846	8.530	8.607
LLAMA-3.1-8B 강조	6.705	6.566	6.338	6.383	6.325	6.267
젬마 -2-9B-IT	7.541	7.412	7.269	7.380	7.268	7.270
Baichuan2-13B-Chat	6.313	6.160	6.070	6.145	6.086	6.031
LLAMA-2-13B-Chat-HF	5.449	5.422	5.341	5.384	5.332	5.329
QWEN1.5-14B-Chat	7.529	7.520	7.367	7.504	7.297	7.334

`ipex-llm` QuickStart

도커

C ++에서의 GPU 추론 : Intel GPU에서 ipex-llm 사용하여 llama.cpp , ollama 등을 실행합니다.
파이썬에서의 GPU 추론 : Intel GPU의 ipex-llm 사용하여 Huggingface transformers , LangChain , LlamaIndex , ModelScope 등 실행
vllm on gpu : Intel GPU에서 ipex-llm 과 함께 제공되는 vLLM 실행
CPU의 Vllm : Intel CPU에서 ipex-llm 과 함께 제공되는 vLLM 실행
GPU의 FastChat : Intel GPU에서 ipex-llm 과 함께 FastChat 실행
GPU의 VSCODE : Intel GPU에서 VSCODE를 사용하여 Python에서 ipex-llm 응용 프로그램 실행 및 개발

사용

NPU : Python 및 C ++에서 Intel NPU 에서 ipex-llm 실행
llama.cpp : Intel GPU에서 llama.cpp ( ipex-llm 의 C ++ 인터페이스 사용 ) 실행
Ollama : Intel GPU에서 Ollama ( ipex-llm 의 C ++ 인터페이스 사용 ) 실행
Pytorch/Huggingface : Windows 용 Intel GPU에서 Pytorch , Huggingface , Langchain , Lamaindex 등 ( ipex-llm 의 Python 인터페이스 사용 ) 및 Linux.
VLLM : Intel GPU 및 CPU에서 VLLM 에서 ipex-llm 실행
FASTCHAT : Intel GPU 및 CPU에서 서빙하는 Fastchat 에서 ipex-llm 실행
다중 인텔 GPU에 서비스 : DeepSpeed Autotp 및 Fastapi를 활용하여 다중 인텔 GPU에서 ipex-llm 실행합니다.
텍스트 세대-부부 : oobabooga Webui 에서 ipex-llm 실행합니다
Axolotl : llm finetuning을 위해 axolotl 에서 ipex-llm 실행합니다
벤치마킹 : Intel CPU 및 GPU에서 ipex-llm 용 실행 (대기 시간 및 처리량) 벤치 마크

응용 프로그램

그래프 크래그 : ipex-llm 과 함께 로컬 LLM을 사용하여 Microsoft GraphRAG 실행합니다
Ragflow : ipex-llm 으로 RAGFlow ( 오픈 소스 래그 엔진 ) 실행
Langchain-chatchat : ipex-llm 으로 LangChain-Chatchat ( Rag Pipeline을 사용하는 지식 기반 QA ) 실행
Copilot 코딩 : ipex-llm 으로 Continue (VSCODE에서 Copilot 코딩) 실행
Open Webui : ipex-llm 으로 Open WebUI 실행합니다
PrivateGpt : PrivateGPT 실행하여 ipex-llm 과 문서와 상호 작용합니다
Dify 플랫폼 : Dify 에서 ipex-llm 실행 ( 생산 준비 LLM 앱 개발 플랫폼 )

설치하다

Windows GPU : Intel GPU를 사용하여 Windows에 ipex-llm 설치합니다
Linux GPU : Intel GPU를 사용하여 Linux에 ipex-llm 설치
자세한 내용은 전체 설치 안내서를 참조하십시오.

코드 예제

낮은 비트 추론
- INT4 추론 : Intel GPU 및 CPU에서 Int4 LLM 추론
- FP8/FP6/FP4 추론 : 인텔 GPU에서 FP8 , FP6 및 FP4 LLM 추론
- INT8 추론 : Intel GPU 및 CPU에서 Int8 LLM 추론
- INT2 추론 : Intel GPU의 Int2 LLM 추론 (LLAMA.CPP IQ2 메커니즘 기반)
FP16/BF16 추론
- 인텔 GPU에 대한 FP16 LLM 추론, 가능한 자체 구체적 디코딩 최적화와 함께
- 인텔 CPU에 대한 BF16 LLM 추론, 가능한 자체 구체적 디코딩 최적화와 함께
분산 된 추론
- 인텔 GPU의 파이프 라인 병렬 추론
- 인텔 GPU의 딥 스피드 autotp 추론
저장 및로드
- 저용량 모델 : ipex-llm 저지대 모델 저장 및로드 (Int4/FP4/FP6/Int8/FP8/FP16/등).
- GGUF : GGUF 모델을 ipex-llm 에 직접로드합니다
- AWQ : AWQ 모델을 ipex-llm 에 직접로드합니다
- GPTQ : GPTQ 모델을 ipex-llm 에 직접로드합니다
FINETUNING
- LORA, QLORA, DPO, QA-LORA 및 RELORA를 포함한 인텔 GPU에 대한 LLM FINETUNING
- 인텔 CPU에서 Qlora Finetuning
커뮤니티 라이브러리와의 통합
- 포옹 페이스 변압기
- 표준 Pytorch 모델
- 랭케인
- llamaindex
- DeepSpeed-AUTOTP
- axolotl
- 포옹 페프트
- 껴안는 표면 trl
- Autogen
- 모 모코
튜토리얼

API DOC

Huggingface Transformers 스타일 API (자동 클래스)
임의의 Pytorch 모델에 대한 API

FAQ

FAQ 및 문제 촬영

검증 된 모델

llama/llama2, mistral, mixtral, gemma, llava, chatglm2/chatglm3, baichuan/baichuan2, Qwen/qwen-15, internlm 등 70 개가 넘는 모델이 최적화/ ipex-llm 에서 최적화/검증되었습니다. 아래 목록을 참조하십시오.

모델	CPU 예제	GPU 예제	NPU 예제
야마	Link1, Link2	링크
라마 2	Link1, Link2	링크	파이썬 링크, C ++ 링크
라마 3	링크	링크	파이썬 링크, C ++ 링크
라마 3.1	링크	링크
라마 3.2		링크	파이썬 링크, C ++ 링크
라마 3.2 vision		링크
chatglm	링크
chatglm2	링크	링크
chatglm3	링크	링크
GLM-4	링크	링크
GLM-4V	링크	링크
Glm-Edge		링크	파이썬 링크
GLM-Edge-V		링크
미스트랄	링크	링크
믹스 트랄	링크	링크
매	링크	링크
MPT	링크	링크
돌리 -V1	링크	링크
돌리 -V2	링크	링크
코드를 반복하십시오	링크	링크
레드 파자마	Link1, Link2
피닉스	Link1, Link2
스타 코더	Link1, Link2	링크
Baichuan	링크	링크
Baichuan2	링크	링크	파이썬 링크
internlm	링크	링크
internvl2		링크
Qwen	링크	링크
Qwen1.5	링크	링크
Qwen2	링크	링크	파이썬 링크, C ++ 링크
qwen2.5		링크	파이썬 링크, C ++ 링크
Qwen-VL	링크	링크
QWEN2-VL		링크
QWEN2-AUDIO		링크
aquila	링크	링크
aquila2	링크	링크
이끼	링크
속삭임	링크	링크
PHI-1_5	링크	링크
FLAN-T5	링크	링크
llava	링크	링크
코델마	링크	링크
스카이 워크	링크
Internlm-xcomposer	링크
마법사-파이썬	링크
Codeshell	링크
후유	링크
Distil-Whisper	링크	링크
Yi	링크	링크
블루 름	링크	링크
맘바	링크	링크
태양	링크	링크
phixtral	링크	링크
internlm2	링크	링크
RWKV4		링크
RWKV5		링크
짖다	링크	링크
SpeechT5		링크
Deepseek-Moe	링크
Ziya 코딩 -34B-V1.0	링크
PHI-2	링크	링크
PHI-3	링크	링크
Phi-3 vision	링크	링크
Yuan2	링크	링크
아체	링크	링크
젬마 2		링크
데실 -7b	링크	링크
Deepseek	링크	링크
안정	링크	링크
Codegemma	링크	링크
Command-R/Cohere	링크	링크
CodegeEx2	링크	링크
minicpm	링크	링크	파이썬 링크, C ++ 링크
minicpm3		링크
Minicpm-v		링크
Minicpm-V-2	링크	링크
minicpm-llama3-v-2_5		링크	파이썬 링크
Minicpm-V-2_6	링크	링크	파이썬 링크
안정된 확신		링크
BCE-embedding-base-v1			파이썬 링크
speech_paraformer-large			파이썬 링크

지원을 받으십시오

GitHub 문제를 열어 버그를보고하거나 기능 요청을 제기하십시오.
Github Security Advisory 초안을 열어 취약점을보고하십시오.

성능은 사용, 구성 및 기타 요인에 따라 다릅니다. ipex-llm intel이 아닌 제품에 대해 동일한 수준으로 최적화되지 않을 수 있습니다. 자세한 내용은 www.intel.com/performanceIndex에서 알아보십시오. ↩ ²

확장하다

추가 정보

버전 IPEX-LLM release 2.1.0
유형 파이썬
업데이트 시간 2025-07-12
크기 4.9MB
출처 Github

ipex llm

? Pytorch 용 Intel® LLM 라이브러리*

최신 업데이트

`ipex-llm` 데모

`ipex-llm` 성능

모델 정확도

`ipex-llm` QuickStart

도커

사용

응용 프로그램

설치하다

코드 예제

낮은 비트 추론

FP16/BF16 추론

분산 된 추론

저장 및로드

FINETUNING

커뮤니티 라이브러리와의 통합

API DOC

FAQ

검증 된 모델

지원을 받으십시오

TensorRT LLM

GitHub sgrebnov/cordova plugin background download

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

ToDo Co

Python Portfolio

Redash 오픈 소스 데이터 차트 도구 v24.10.0

Google Dorks

shepherd

mongo express

ipex llm

? Pytorch 용 Intel® LLM 라이브러리*

최신 업데이트

ipex-llm 데모

ipex-llm 성능

모델 정확도

ipex-llm QuickStart

도커

사용

응용 프로그램

설치하다

코드 예제

낮은 비트 추론

FP16/BF16 추론

분산 된 추론

저장 및로드

FINETUNING

커뮤니티 라이브러리와의 통합

API DOC

FAQ

검증 된 모델

지원을 받으십시오

각주

`ipex-llm` 데모

`ipex-llm` 성능

`ipex-llm` QuickStart