Rama principal de la CPU | ? Inicio rápido | Documentación | ? Instalación | Ejemplo de LLM
Rama principal de GPU | ? Inicio rápido | Documentación | ? Instalación | Ejemplo de LLM
Extensión Intel® para Pytorch* extiende Pytorch* con optimizaciones de características actualizadas para un impulso de rendimiento adicional en el hardware Intel. Las optimizaciones aprovechan las instrucciones de la red neuronal de vectores de vector avanzado Intel® (Intel® AVX-512) Instrucciones de red neuronales (VNNI) y las extensiones de matriz avanzadas Intel® (Intel® AMX) en las CPU Intel, así como las extensiones de matriz Intel X E (XMX) ai en GPU discretas de Intel. Además, la extensión Intel® para Pytorch* proporciona una fácil aceleración de GPU para GPU discretas Intel a través del dispositivo Pytorch* XPU.
En el panorama tecnológico actual, las cargas y modelos de trabajo generativo de IA (Genai) han ganado atención y popularidad generalizadas. Los modelos de idiomas grandes (LLM) han surgido como los modelos dominantes que impulsan estas aplicaciones Genai. A partir de 2.1.0, se introducen optimizaciones específicas para ciertos modelos LLM en la extensión Intel® para Pytorch*. Verifique las optimizaciones de LLM para obtener más detalles.
| Familia modelo | Nombre del modelo (Hubgingface Hub) | FP32 | BF16 | Cuantización estática int8 | Solo peso de cuantización int8 | Peso solo cuantización int4 |
|---|---|---|---|---|---|---|
| LLAMA | Meta-llama/Llama-2-7B-HF | ? | ? | ? | ? | ? |
| LLAMA | Meta-llama/Llama-2-13B-HF | ? | ? | ? | ? | ? |
| LLAMA | Meta-llama/Llama-2-70B-HF | ? | ? | ? | ? | ? |
| LLAMA | meta-llama/meta-llama-3-8b | ? | ? | ? | ? | ? |
| LLAMA | meta-llama/meta-llama-3-70b | ? | ? | ? | ? | ? |
| LLAMA | Meta-llama/meta-llama-3.1-8b-instructo | ? | ? | ? | ? | ? |
| LLAMA | Meta-llama/Llama-3.2-3b-Instructo | ? | ? | ? | ? | ? |
| LLAMA | Meta-llama/llama-3.2-11b-visión-instructo | ? | ? | ? | ||
| GPT-J | ELEUTHERAI/GPT-J-6B | ? | ? | ? | ? | ? |
| GPT-NOOX | ELEUTHERAI/GPT-NOOX-20B | ? | ? | ? | ? | ? |
| MUÑEQUITA | Databricks/Dolly-V2-12B | ? | ? | ? | ? | ? |
| HALCÓN | Tiiuae/Falcon-7b | ? | ? | ? | ? | ? |
| HALCÓN | Tiiuae/Falcon-11b | ? | ? | ? | ? | ? |
| HALCÓN | Tiiuae/Falcon-40b | ? | ? | ? | ? | ? |
| OPTAR | Facebook/Opt-30b | ? | ? | ? | ? | ? |
| OPTAR | Facebook/Opt-1.3b | ? | ? | ? | ? | ? |
| Floración | BigScience/Bloom-1B7 | ? | ? | ? | ? | ? |
| Codegen | Salesforce/Codegen-2B-Multi | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-inc/Baichuan2-7b-chat | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-inc/Baichuan2-13b-chat | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-inc/Baichuan-13b-chat | ? | ? | ? | ? | ? |
| Chatglm | Thudm/ChatGlm3-6b | ? | ? | ? | ? | ? |
| Chatglm | Thudm/ChatGlm2-6b | ? | ? | ? | ? | ? |
| Gptbigcode | Bigcode/Starcoder | ? | ? | ? | ? | ? |
| T5 | Google/Flan-T5-XL | ? | ? | ? | ? | |
| MPT | mosaicml/mpt-7b | ? | ? | ? | ? | ? |
| Mistral | Mistralai/Mistral-7B-V0.1 | ? | ? | ? | ? | ? |
| Mixtral | Mistralai/Mixtral-8x7b-V0.1 | ? | ? | ? | ? | |
| Stablelm | stabilidadi/stablelm-2-1_6b | ? | ? | ? | ? | ? |
| Qwen | QWEN/QWEN-7B-CHAT | ? | ? | ? | ? | ? |
| Qwen | QWEN/QWEN2-7B | ? | ? | ? | ? | ? |
| Llava | Liuhaotian/llava-v1.5-7b | ? | ? | ? | ? | |
| Git | Microsoft/git-base | ? | ? | ? | ||
| Yuan | Ieityuan/yuan2-102b-hf | ? | ? | ? | ||
| Fi | Microsoft/Phi-2 | ? | ? | ? | ? | ? |
| Fi | Microsoft/Phi-3-mini-4K-Instructo | ? | ? | ? | ? | ? |
| Fi | Microsoft/Phi-3-Mini-128K-Instructo | ? | ? | ? | ? | ? |
| Fi | Microsoft/Phi-3-medium-4K-Instructo | ? | ? | ? | ? | ? |
| Fi | Microsoft/PHI-3-Medium-128K-Instructo | ? | ? | ? | ? | ? |
| Susurro | OpenAI/Whisper-Large-V2 | ? | ? | ? | ? |
Nota : Los modelos verificados anteriores (incluidos otros modelos en la misma familia modelo, como "Codellama/Codellama-7B-HF" de la familia Llama) están bien apoyados con todas las optimizaciones como el caché KV de acceso indirecto, la cuerda fusionada y los núcleos lineales personalizados. Estamos trabajando en progreso para apoyar mejor los modelos en las tablas con varios tipos de datos. Además, se optimizarán más modelos en el futuro.
Además, la extensión Intel® para Pytorch* introduce API de optimización de nivel de módulo (característica prototipo) desde la versión 2.3.0. La característica proporciona alternativas optimizadas para varios módulos LLM de uso común y funcionalidades para las optimizaciones del nicho o LLM personalizados. Lea la práctica de optimización de nivel de módulo LLM para comprender mejor cómo optimizar su propia LLM y lograr un mejor rendimiento.
El equipo rastrea errores y solicitudes de mejora utilizando problemas de GitHub. Antes de enviar un informe de sugerencias o errores, busque los problemas de GitHub existentes para ver si su problema ya ha sido informado.
Licencia Apache , versión 2.0 . Como se encuentra en el archivo de licencia.
Consulte el Centro de Seguridad de Intel para obtener información sobre cómo informar un posible problema de seguridad o vulnerabilidad.
Ver también: Política de seguridad