Descarga de intel extension for pytorch - intel extension for pytorch Descargar

intel extension for pytorch

Pitón

v2.5.10+xpu Release Notes

Descargar

Extensión Intel® para Pytorch*

Extensión Intel® para Pytorch* extiende Pytorch* con optimizaciones de características actualizadas para un impulso de rendimiento adicional en el hardware Intel. Las optimizaciones aprovechan las instrucciones de la red neuronal de vectores de vector avanzado Intel® (Intel® AVX-512) Instrucciones de red neuronales (VNNI) y las extensiones de matriz avanzadas Intel® (Intel® AMX) en las CPU Intel, así como las extensiones de matriz Intel X ^E (XMX) ai en GPU discretas de Intel. Además, la extensión Intel® para Pytorch* proporciona una fácil aceleración de GPU para GPU discretas Intel a través del dispositivo Pytorch* XPU.

IPEX.LLM - Optimización de modelos de idiomas grandes (LLMS)

En el panorama tecnológico actual, las cargas y modelos de trabajo generativo de IA (Genai) han ganado atención y popularidad generalizadas. Los modelos de idiomas grandes (LLM) han surgido como los modelos dominantes que impulsan estas aplicaciones Genai. A partir de 2.1.0, se introducen optimizaciones específicas para ciertos modelos LLM en la extensión Intel® para Pytorch*. Verifique las optimizaciones de LLM para obtener más detalles.

Lista de modelos optimizado

Familia modelo	Nombre del modelo (Hubgingface Hub)	FP32	BF16	Cuantización estática int8	Solo peso de cuantización int8	Peso solo cuantización int4
LLAMA	Meta-llama/Llama-2-7B-HF	?	?	?	?	?
LLAMA	Meta-llama/Llama-2-13B-HF	?	?	?	?	?
LLAMA	Meta-llama/Llama-2-70B-HF	?	?	?	?	?
LLAMA	meta-llama/meta-llama-3-8b	?	?	?	?	?
LLAMA	meta-llama/meta-llama-3-70b	?	?	?	?	?
LLAMA	Meta-llama/meta-llama-3.1-8b-instructo	?	?	?	?	?
LLAMA	Meta-llama/Llama-3.2-3b-Instructo	?	?	?	?	?
LLAMA	Meta-llama/llama-3.2-11b-visión-instructo	?	?		?
GPT-J	ELEUTHERAI/GPT-J-6B	?	?	?	?	?
GPT-NOOX	ELEUTHERAI/GPT-NOOX-20B	?	?	?	?	?
MUÑEQUITA	Databricks/Dolly-V2-12B	?	?	?	?	?
HALCÓN	Tiiuae/Falcon-7b	?	?	?	?	?
HALCÓN	Tiiuae/Falcon-11b	?	?	?	?	?
HALCÓN	Tiiuae/Falcon-40b	?	?	?	?	?
OPTAR	Facebook/Opt-30b	?	?	?	?	?
OPTAR	Facebook/Opt-1.3b	?	?	?	?	?
Floración	BigScience/Bloom-1B7	?	?	?	?	?
Codegen	Salesforce/Codegen-2B-Multi	?	?	?	?	?
Baichuan	Baichuan-inc/Baichuan2-7b-chat	?	?	?	?	?
Baichuan	Baichuan-inc/Baichuan2-13b-chat	?	?	?	?	?
Baichuan	Baichuan-inc/Baichuan-13b-chat	?	?	?	?	?
Chatglm	Thudm/ChatGlm3-6b	?	?	?	?	?
Chatglm	Thudm/ChatGlm2-6b	?	?	?	?	?
Gptbigcode	Bigcode/Starcoder	?	?	?	?	?
T5	Google/Flan-T5-XL	?	?	?	?
MPT	mosaicml/mpt-7b	?	?	?	?	?
Mistral	Mistralai/Mistral-7B-V0.1	?	?	?	?	?
Mixtral	Mistralai/Mixtral-8x7b-V0.1	?	?		?	?
Stablelm	stabilidadi/stablelm-2-1_6b	?	?	?	?	?
Qwen	QWEN/QWEN-7B-CHAT	?	?	?	?	?
Qwen	QWEN/QWEN2-7B	?	?	?	?	?
Llava	Liuhaotian/llava-v1.5-7b	?	?		?	?
Git	Microsoft/git-base	?	?		?
Yuan	Ieityuan/yuan2-102b-hf	?	?		?
Fi	Microsoft/Phi-2	?	?	?	?	?
Fi	Microsoft/Phi-3-mini-4K-Instructo	?	?	?	?	?
Fi	Microsoft/Phi-3-Mini-128K-Instructo	?	?	?	?	?
Fi	Microsoft/Phi-3-medium-4K-Instructo	?	?	?	?	?
Fi	Microsoft/PHI-3-Medium-128K-Instructo	?	?	?	?	?
Susurro	OpenAI/Whisper-Large-V2	?	?	?	?

Nota : Los modelos verificados anteriores (incluidos otros modelos en la misma familia modelo, como "Codellama/Codellama-7B-HF" de la familia Llama) están bien apoyados con todas las optimizaciones como el caché KV de acceso indirecto, la cuerda fusionada y los núcleos lineales personalizados. Estamos trabajando en progreso para apoyar mejor los modelos en las tablas con varios tipos de datos. Además, se optimizarán más modelos en el futuro.

Además, la extensión Intel® para Pytorch* introduce API de optimización de nivel de módulo (característica prototipo) desde la versión 2.3.0. La característica proporciona alternativas optimizadas para varios módulos LLM de uso común y funcionalidades para las optimizaciones del nicho o LLM personalizados. Lea la práctica de optimización de nivel de módulo LLM para comprender mejor cómo optimizar su propia LLM y lograr un mejor rendimiento.

Apoyo

El equipo rastrea errores y solicitudes de mejora utilizando problemas de GitHub. Antes de enviar un informe de sugerencias o errores, busque los problemas de GitHub existentes para ver si su problema ya ha sido informado.