intel extension for pytorch Download - intel extension for pytorch Download

intel extension for pytorch

Python

v2.5.10+xpu Release Notes

Télécharger

Extension Intel® pour pytorch *

L'extension Intel® pour Pytorch * étend Pytorch * avec des optimisations de fonctionnalités à jour pour une augmentation supplémentaire des performances sur le matériel Intel. Les optimisations profitent des extensions vectorielles avancées Intel® 512 (Intel® AVX-512) Instructions de réseau neuronal vectorielles (VNNI) et Intel® Advanced Matrix Extensions (Intel® AMX) sur les CPU Intel ainsi que les extensions de matrice Intel X ^E (XMX) AI moteurs sur les GPU discrets Intel. De plus, l'extension Intel® pour Pytorch * fournit une accélération GPU facile pour les GPU Intel Distes via le périphérique Pytorch * XPU.

IPEX.llm - Optimisation des modèles de grande langue (LLMS)

Dans le paysage technologique actuel, les charges de travail et les modèles génératifs de l'IA (Genai) ont attiré l'attention et la popularité généralisées. Les modèles de grandes langues (LLM) ont émergé comme les modèles dominants stimulant ces applications Genai. À partir de 2.1.0, des optimisations spécifiques pour certains modèles LLM sont introduites dans l'extension Intel® pour Pytorch *. Vérifiez les optimisations LLM pour plus de détails.

Liste de modèles optimisés

Famille de modèles	Nom du modèle (hub huggingface)	Fp32	BF16	Quantification statique INT8	Poids uniquement de la quantification Int8	Poids uniquement de la quantification INT4
LAMA	méta-llama / lama-2-7b-hf	?	?	?	?	?
LAMA	méta-llama / lama-2-13b-hf	?	?	?	?	?
LAMA	méta-llama / lama-2-70b-hf	?	?	?	?	?
LAMA	méta-llama / méta-llama-3-8b	?	?	?	?	?
LAMA	méta-llama / méta-llama-3-70b	?	?	?	?	?
LAMA	méta-llama / méta-llama-3.1-8b-instruit	?	?	?	?	?
LAMA	méta-llama / lama-3.2-3b-instruct	?	?	?	?	?
LAMA	méta-llama / lama-3.2-11b-vision-Instruct	?	?		?
Gpt-j	Eleutherai / gpt-j-6b	?	?	?	?	?
Gpt-neox	Eleutherai / gpt-neox-20b	?	?	?	?	?
CHARIOT	Databricks / Dolly-V2-12B	?	?	?	?	?
FAUCON	tiiuae / falcon-7b	?	?	?	?	?
FAUCON	tiiuae / falcon-11b	?	?	?	?	?
FAUCON	tiiuae / falcon-40b	?	?	?	?	?
OPTER	Facebook / Opt-30b	?	?	?	?	?
OPTER	Facebook / opt-1.3b	?	?	?	?	?
Floraison	BigScience / Bloom-1b7	?	?	?	?	?
Codegen	Salesforce / Codegen-2b-Multi	?	?	?	?	?
Baichuan	baichuan-inc / baichuan2-7b-chat	?	?	?	?	?
Baichuan	baichuan-inc / baichuan2-13b-chat	?	?	?	?	?
Baichuan	baichuan-inc / baichuan-13b-chat	?	?	?	?	?
Chatglm	Thudm / chatglm3-6b	?	?	?	?	?
Chatglm	Thudm / chatglm2-6b	?	?	?	?	?
Gptbigcode	Bigcode / Starcoder	?	?	?	?	?
T5	Google / Flan-T5-XL	?	?	?	?
Mpte	MOSAICML / MPT-7B	?	?	?	?	?
Mistral	Mistralai / Mistral-7B-V0.1	?	?	?	?	?
Mixtral	Mistralai / mixtral-8x7b-v0.1	?	?		?	?
Stablel	stabilitéi / stablelm-2-1_6b	?	?	?	?	?
Qwen	Qwen / qwen-7b-chat	?	?	?	?	?
Qwen	Qwen / qwen2-7b	?	?	?	?	?
Llave	Liuhaotien / llava-v1.5-7b	?	?		?	?
Git	Microsoft / Git-base	?	?		?
Yuan	Ieityuan / yuan2-102b-hf	?	?		?
Phi	Microsoft / PHI-2	?	?	?	?	?
Phi	Microsoft / PHI-3-MINI-4K-INSTRUCT	?	?	?	?	?
Phi	Microsoft / PHI-3-MINI-128K-INSTRUCT	?	?	?	?	?
Phi	Microsoft / PHI-3-Medium-4K-Istruct	?	?	?	?	?
Phi	Microsoft / PHI-3-Medium-128K-Istruct	?	?	?	?	?
Chuchoter	Openai / Whisper-Large-V2	?	?	?	?

Remarque : Les modèles vérifiés ci-dessus (y compris d'autres modèles de la même famille de modèles, comme "Codellama / Codellama-7b-HF" de la famille LLAMA) sont bien pris en charge avec toutes les optimisations telles que le cache KV d'accès indirect, la corde fusionnée et les grains linéaires personnalisés. Nous travaillons en cours pour mieux soutenir les modèles des tableaux avec divers types de données. De plus, davantage de modèles seront optimisés à l'avenir.

De plus, l'extension Intel® pour Pytorch * introduit les API d'optimisation du niveau du module (fonctionnalité prototype) depuis la version 2.3.0. La fonctionnalité fournit des alternatives optimisées pour plusieurs modules et fonctionnalités LLM couramment utilisés pour les optimisations du niche ou des LLM personnalisés. Veuillez lire la pratique d'optimisation du niveau du module LLM pour mieux comprendre comment optimiser votre propre LLM et obtenir de meilleures performances.

Soutien

L'équipe suit les bogues et les demandes d'amélioration à l'aide de problèmes GitHub. Avant de soumettre une suggestion ou un rapport de bogue, recherchez les problèmes de github existants pour voir si votre problème a déjà été signalé.