Filial Principal da CPU | ? Iniciar rápido | Documentações | ? Instalação | Exemplo llm
Ramo principal da GPU | ? Iniciar rápido | Documentações | ? Instalação | Exemplo llm
Extensão Intel® para Pytorch* estende o Pytorch* com otimizações de recursos atualizados para um impulso extra de desempenho no hardware Intel. As otimizações aproveitam as extensões vetoriais avançadas do Intel® 512 (Intel® AVX-512) Instruções de rede neural de vetor (VNNI) e Extensões de matriz avançada Intel® (Intel® AMX) em Intel CPUs, bem como Extensões de Matrix Intel. Além disso, a extensão Intel® para Pytorch* fornece uma aceleração de GPU fácil para GPUs discretas da Intel através do dispositivo Pytorch* XPU.
No cenário tecnológico atual, as cargas e modelos generativos de trabalho de IA (Genai) ganharam atenção e popularidade generalizadas. Os grandes modelos de linguagem (LLMs) emergiram como os modelos dominantes que impulsionam essas aplicações da Genai. A partir de 2.1.0, otimizações específicas para determinados modelos LLM são introduzidos na extensão Intel® para Pytorch*. Verifique as otimizações LLM para obter detalhes.
| Família modelo | Nome do modelo (HUGGINGFACE HUB) | Fp32 | BF16 | Quantização estática Int8 | Somente quantização de peso Int8 | Somente quantização de peso Int4 |
|---|---|---|---|---|---|---|
| Lhama | meta-llama/llama-2-7b-hf | ? | ? | ? | ? | ? |
| Lhama | meta-llama/llama-2-13b-hf | ? | ? | ? | ? | ? |
| Lhama | meta-llama/llama-2-70b-hf | ? | ? | ? | ? | ? |
| Lhama | meta-llama/meta-llama-3-8b | ? | ? | ? | ? | ? |
| Lhama | meta-llama/meta-llama-3-70b | ? | ? | ? | ? | ? |
| Lhama | meta-llama/meta-llama-3.1-8b-instrução | ? | ? | ? | ? | ? |
| Lhama | meta-llama/llama-3.2-3b-instrução | ? | ? | ? | ? | ? |
| Lhama | meta-llama/llama-3.2-11b-vision-instruct | ? | ? | ? | ||
| GPT-J | Eleutherai/GPT-J-6b | ? | ? | ? | ? | ? |
| GPT-Neox | Eleutherai/GPT-Neox-20B | ? | ? | ? | ? | ? |
| Dolly | Databricks/dolly-v2-12b | ? | ? | ? | ? | ? |
| FALCÃO | tiiuae/falcon-7b | ? | ? | ? | ? | ? |
| FALCÃO | tiiuae/falcon-11b | ? | ? | ? | ? | ? |
| FALCÃO | tiiuae/falcon-40b | ? | ? | ? | ? | ? |
| OPTAR | Facebook/Opt-30b | ? | ? | ? | ? | ? |
| OPTAR | Facebook/Opt-1.3b | ? | ? | ? | ? | ? |
| Florescer | BIGSCIENCE/BLOOM-1B7 | ? | ? | ? | ? | ? |
| CodeGen | Salesforce/codegen-2b-multi | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan2-7b-Chat | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan2-13b-Chat | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan-13b-Chat | ? | ? | ? | ? | ? |
| Chatglm | Thudm/chatglm3-6b | ? | ? | ? | ? | ? |
| Chatglm | Thudm/chatglm2-6b | ? | ? | ? | ? | ? |
| GptbigCode | BigCode/Starcoder | ? | ? | ? | ? | ? |
| T5 | Google/Flan-T5-XL | ? | ? | ? | ? | |
| Mpt | Mosaicml/mpt-7b | ? | ? | ? | ? | ? |
| Mistral | Mistralai/Mistral-7b-V0.1 | ? | ? | ? | ? | ? |
| Mixtral | Mistralai/Mixtral-8x7b-V0.1 | ? | ? | ? | ? | |
| Stablelm | Stabilityai/Stablelm-2-1_6b | ? | ? | ? | ? | ? |
| Qwen | QWEN/QWEN-7B-CAT | ? | ? | ? | ? | ? |
| Qwen | QWEN/QWEN2-7B | ? | ? | ? | ? | ? |
| Llava | liuhaotian/llava-v1.5-7b | ? | ? | ? | ? | |
| Git | Microsoft/Git-Base | ? | ? | ? | ||
| Yuan | Ieityuan/yuan2-102b-hf | ? | ? | ? | ||
| Phi | Microsoft/Phi-2 | ? | ? | ? | ? | ? |
| Phi | Microsoft/Phi-3-Mini-4K-Instruct | ? | ? | ? | ? | ? |
| Phi | Microsoft/Phi-3-Mini-128K-Instrut | ? | ? | ? | ? | ? |
| Phi | Microsoft/Phi-3-Medium-4K-Instrut | ? | ? | ? | ? | ? |
| Phi | Microsoft/Phi-3-Medium-128K-Instruct | ? | ? | ? | ? | ? |
| Sussurrar | OpenAI/Whisper-Large-V2 | ? | ? | ? | ? |
Nota : Os modelos verificados acima (incluindo outros modelos da mesma família de modelos, como "Codellama/Codellama-7b-HF" da família LLAMA) são bem apoiados com todas as otimizações como cache KV de acesso indireto, corda fundida e kernels lineares personalizados. Estamos trabalhando em andamento para apoiar melhor os modelos nas tabelas com vários tipos de dados. Além disso, mais modelos serão otimizados no futuro.
Além disso, a extensão Intel® para Pytorch* apresenta APIs de otimização de nível de módulo (recurso do protótipo) desde a versão 2.3.0. O recurso fornece alternativas otimizadas para vários módulos e funcionalidades LLM comumente usados para as otimizações do nicho ou LLMs personalizados. Leia a prática de otimização do nível do módulo LLM para entender melhor como otimizar seu próprio LLM e obter melhor desempenho.
A equipe rastreia os bugs e solicitações de aprimoramento usando problemas do GitHub. Antes de enviar um relatório de sugestão ou bug, pesquise os problemas existentes do GitHub para verificar se seu problema já foi relatado.
Licença Apache , versão 2.0 . Como encontrado no arquivo de licença.
Consulte o Centro de Segurança da Intel para obter informações sobre como relatar um potencial problema de segurança ou vulnerabilidade.
Veja também: Política de segurança