CPU 메인 브랜치 | ? 빠른 시작 | 문서 | ? 설치 | LLM 예
GPU 메인 브랜치 | ? 빠른 시작 | 문서 | ? 설치 | LLM 예
Pytorch의 Intel® Extension*은 Pytorch*를 최신 기능으로 인텔 하드웨어의 추가 성능 향상을위한 최적화 기능으로 확장합니다. 최적화는 Intel® Advanced Vector Extensions 512 (Intel® AVX-512) 벡터 신경 네트워크 명령 (VNNI) 및 Intel® Advanced Matrix Extensions (Intel® AMX) 및 Intel X E e Matrix Extensions (XMX) AI Engines AI Engines의 Intel X E E E E E e Matrix Extensions (Intel® AMX)를 활용합니다. 또한, Pytorch* 용 Intel® 확장자는 Pytorch* XPU 장치를 통해 Intel 이산 GPU에 대한 쉬운 GPU 가속도를 제공합니다.
현재의 기술 환경에서 생성 AI (Genai) 워크로드와 모델은 광범위한 관심과 인기를 얻었습니다. 이러한 Genai 응용 프로그램을 주도하는 지배적 인 모델로 큰 언어 모델 (LLM)이 등장했습니다. 2.1.0부터 특정 LLM 모델에 대한 특정 최적화가 Pytorch*의 Intel® 확장에 도입됩니다. 자세한 내용은 LLM 최적화를 확인하십시오.
| 모델 패밀리 | 모델 이름 (Huggingface Hub) | FP32 | BF16 | 정적 양자화 INT8 | 중량 만 양자화 int8 | 중량 만 양자화 INT4 |
|---|---|---|---|---|---|---|
| 야마 | 메타 롤라/라마 -2-7B-HF | ? | ? | ? | ? | ? |
| 야마 | 메타 롤라/라마 -2-13B-HF | ? | ? | ? | ? | ? |
| 야마 | 메타 롤라/라마 -2-70b-HF | ? | ? | ? | ? | ? |
| 야마 | 메타 롤라마/메타 롤라마 -3-8B | ? | ? | ? | ? | ? |
| 야마 | 메타-롤람/메타 롤라마 -3-70b | ? | ? | ? | ? | ? |
| 야마 | 메타-롤라마/메타-롤라마 -3.1-8B-비율 | ? | ? | ? | ? | ? |
| 야마 | 메타-롤라마/라마 -3.2-3B-비율 | ? | ? | ? | ? | ? |
| 야마 | 메타-롤라마/라마 -3.2-11B vision-instruct | ? | ? | ? | ||
| GPT-J | eleutherai/gpt-j-6b | ? | ? | ? | ? | ? |
| gpt-neox | eleutherai/gpt-neox-20b | ? | ? | ? | ? | ? |
| 인형 | Databricks/Dolly-V2-12B | ? | ? | ? | ? | ? |
| 매 | tiiuae/falcon-7b | ? | ? | ? | ? | ? |
| 매 | tiiuae/falcon-11b | ? | ? | ? | ? | ? |
| 매 | tiiuae/falcon-40b | ? | ? | ? | ? | ? |
| 고르다 | Facebook/OPT-30B | ? | ? | ? | ? | ? |
| 고르다 | Facebook/OPT-1.3B | ? | ? | ? | ? | ? |
| 꽃 | BigScience/Bloom-1B7 | ? | ? | ? | ? | ? |
| Codegen | Salesforce/Codegen-2B-Multi | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan2-7b-Chat | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan2-13B-Chat | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan-13B-Chat | ? | ? | ? | ? | ? |
| chatglm | thudm/chatglm3-6b | ? | ? | ? | ? | ? |
| chatglm | thudm/chatglm2-6b | ? | ? | ? | ? | ? |
| gptbigcode | 큰 코드/스타 코더 | ? | ? | ? | ? | ? |
| T5 | Google/FLAN-T5-XL | ? | ? | ? | ? | |
| MPT | 모자이크/mpt-7b | ? | ? | ? | ? | ? |
| 미스트랄 | Mistralai/Mistral-7B-V0.1 | ? | ? | ? | ? | ? |
| 믹스 트랄 | mistralai/mixtral-8x7b-v0.1 | ? | ? | ? | ? | |
| 안정 | 안정성이/Stablelm-2-1_6B | ? | ? | ? | ? | ? |
| Qwen | Qwen/Qwen-7B-Chat | ? | ? | ? | ? | ? |
| Qwen | Qwen/Qwen2-7b | ? | ? | ? | ? | ? |
| llava | liuhaotian/llava-v1.5-7b | ? | ? | ? | ? | |
| git | Microsoft/Git-Base | ? | ? | ? | ||
| 원 | ieityuan/yuan2-102b-hf | ? | ? | ? | ||
| 피 | Microsoft/Phi-2 | ? | ? | ? | ? | ? |
| 피 | Microsoft/PHI-3-MINI-4K-비축 | ? | ? | ? | ? | ? |
| 피 | Microsoft/PHI-3-MINI-128K-비율 | ? | ? | ? | ? | ? |
| 피 | Microsoft/Phi-3-Medium-4K 비조장 | ? | ? | ? | ? | ? |
| 피 | Microsoft/PHI-3-MEDIUM-128K 비축 | ? | ? | ? | ? | ? |
| 속삭임 | Openai/Whisper-Large-V2 | ? | ? | ? | ? |
참고 : 위의 검증 된 모델 (LLAMA 패밀리의 "Codellama/Codellama-7B-HF"와 같은 동일한 모델 패밀리의 다른 모델 포함)은 간접 액세스 KV 캐시, 퓨즈 로프 및 맞춤형 선형 커널과 같은 모든 최적화로 잘 지원됩니다. 우리는 다양한 데이터 유형을 사용하여 테이블의 모델을 더 잘 지원하기 위해 진행 중입니다. 또한 앞으로 더 많은 모델이 최적화 될 것입니다.
또한 Pytorch*의 Intel® Extension은 릴리스 2.3.0 이후 모듈 레벨 최적화 API (프로토 타입 기능)를 소개합니다. 이 기능은 틈새 또는 맞춤형 LLM의 최적화를위한 일반적으로 사용되는 여러 LLM 모듈 및 기능에 대한 최적화 된 대안을 제공합니다. LLM 모듈 레벨 최적화 사례를 읽어 자신의 LLM을 최적화하고 더 나은 성능을 달성하는 방법을 더 잘 이해하십시오.
팀은 GitHub 문제를 사용하여 버그 및 향상 요청을 추적합니다. 제안 또는 버그 보고서를 제출하기 전에 기존 GitHub 문제를 검색하여 문제가 이미보고되었는지 확인하십시오.
Apache 라이센스 , 버전 2.0 . 라이센스 파일에서 찾은대로.
잠재적 인 보안 문제 또는 취약성을보고하는 방법에 대한 정보는 Intel의 보안 센터를 참조하십시오.
참조 : 보안 정책