Branche principale du CPU | ? Démarrage rapide | Documents | ? Installation | Exemple LLM
Branche principale du GPU | ? Démarrage rapide | Documents | ? Installation | Exemple LLM
L'extension Intel® pour Pytorch * étend Pytorch * avec des optimisations de fonctionnalités à jour pour une augmentation supplémentaire des performances sur le matériel Intel. Les optimisations profitent des extensions vectorielles avancées Intel® 512 (Intel® AVX-512) Instructions de réseau neuronal vectorielles (VNNI) et Intel® Advanced Matrix Extensions (Intel® AMX) sur les CPU Intel ainsi que les extensions de matrice Intel X E (XMX) AI moteurs sur les GPU discrets Intel. De plus, l'extension Intel® pour Pytorch * fournit une accélération GPU facile pour les GPU Intel Distes via le périphérique Pytorch * XPU.
Dans le paysage technologique actuel, les charges de travail et les modèles génératifs de l'IA (Genai) ont attiré l'attention et la popularité généralisées. Les modèles de grandes langues (LLM) ont émergé comme les modèles dominants stimulant ces applications Genai. À partir de 2.1.0, des optimisations spécifiques pour certains modèles LLM sont introduites dans l'extension Intel® pour Pytorch *. Vérifiez les optimisations LLM pour plus de détails.
| Famille de modèles | Nom du modèle (hub huggingface) | Fp32 | BF16 | Quantification statique INT8 | Poids uniquement de la quantification Int8 | Poids uniquement de la quantification INT4 |
|---|---|---|---|---|---|---|
| LAMA | méta-llama / lama-2-7b-hf | ? | ? | ? | ? | ? |
| LAMA | méta-llama / lama-2-13b-hf | ? | ? | ? | ? | ? |
| LAMA | méta-llama / lama-2-70b-hf | ? | ? | ? | ? | ? |
| LAMA | méta-llama / méta-llama-3-8b | ? | ? | ? | ? | ? |
| LAMA | méta-llama / méta-llama-3-70b | ? | ? | ? | ? | ? |
| LAMA | méta-llama / méta-llama-3.1-8b-instruit | ? | ? | ? | ? | ? |
| LAMA | méta-llama / lama-3.2-3b-instruct | ? | ? | ? | ? | ? |
| LAMA | méta-llama / lama-3.2-11b-vision-Instruct | ? | ? | ? | ||
| Gpt-j | Eleutherai / gpt-j-6b | ? | ? | ? | ? | ? |
| Gpt-neox | Eleutherai / gpt-neox-20b | ? | ? | ? | ? | ? |
| CHARIOT | Databricks / Dolly-V2-12B | ? | ? | ? | ? | ? |
| FAUCON | tiiuae / falcon-7b | ? | ? | ? | ? | ? |
| FAUCON | tiiuae / falcon-11b | ? | ? | ? | ? | ? |
| FAUCON | tiiuae / falcon-40b | ? | ? | ? | ? | ? |
| OPTER | Facebook / Opt-30b | ? | ? | ? | ? | ? |
| OPTER | Facebook / opt-1.3b | ? | ? | ? | ? | ? |
| Floraison | BigScience / Bloom-1b7 | ? | ? | ? | ? | ? |
| Codegen | Salesforce / Codegen-2b-Multi | ? | ? | ? | ? | ? |
| Baichuan | baichuan-inc / baichuan2-7b-chat | ? | ? | ? | ? | ? |
| Baichuan | baichuan-inc / baichuan2-13b-chat | ? | ? | ? | ? | ? |
| Baichuan | baichuan-inc / baichuan-13b-chat | ? | ? | ? | ? | ? |
| Chatglm | Thudm / chatglm3-6b | ? | ? | ? | ? | ? |
| Chatglm | Thudm / chatglm2-6b | ? | ? | ? | ? | ? |
| Gptbigcode | Bigcode / Starcoder | ? | ? | ? | ? | ? |
| T5 | Google / Flan-T5-XL | ? | ? | ? | ? | |
| Mpte | MOSAICML / MPT-7B | ? | ? | ? | ? | ? |
| Mistral | Mistralai / Mistral-7B-V0.1 | ? | ? | ? | ? | ? |
| Mixtral | Mistralai / mixtral-8x7b-v0.1 | ? | ? | ? | ? | |
| Stablel | stabilitéi / stablelm-2-1_6b | ? | ? | ? | ? | ? |
| Qwen | Qwen / qwen-7b-chat | ? | ? | ? | ? | ? |
| Qwen | Qwen / qwen2-7b | ? | ? | ? | ? | ? |
| Llave | Liuhaotien / llava-v1.5-7b | ? | ? | ? | ? | |
| Git | Microsoft / Git-base | ? | ? | ? | ||
| Yuan | Ieityuan / yuan2-102b-hf | ? | ? | ? | ||
| Phi | Microsoft / PHI-2 | ? | ? | ? | ? | ? |
| Phi | Microsoft / PHI-3-MINI-4K-INSTRUCT | ? | ? | ? | ? | ? |
| Phi | Microsoft / PHI-3-MINI-128K-INSTRUCT | ? | ? | ? | ? | ? |
| Phi | Microsoft / PHI-3-Medium-4K-Istruct | ? | ? | ? | ? | ? |
| Phi | Microsoft / PHI-3-Medium-128K-Istruct | ? | ? | ? | ? | ? |
| Chuchoter | Openai / Whisper-Large-V2 | ? | ? | ? | ? |
Remarque : Les modèles vérifiés ci-dessus (y compris d'autres modèles de la même famille de modèles, comme "Codellama / Codellama-7b-HF" de la famille LLAMA) sont bien pris en charge avec toutes les optimisations telles que le cache KV d'accès indirect, la corde fusionnée et les grains linéaires personnalisés. Nous travaillons en cours pour mieux soutenir les modèles des tableaux avec divers types de données. De plus, davantage de modèles seront optimisés à l'avenir.
De plus, l'extension Intel® pour Pytorch * introduit les API d'optimisation du niveau du module (fonctionnalité prototype) depuis la version 2.3.0. La fonctionnalité fournit des alternatives optimisées pour plusieurs modules et fonctionnalités LLM couramment utilisés pour les optimisations du niche ou des LLM personnalisés. Veuillez lire la pratique d'optimisation du niveau du module LLM pour mieux comprendre comment optimiser votre propre LLM et obtenir de meilleures performances.
L'équipe suit les bogues et les demandes d'amélioration à l'aide de problèmes GitHub. Avant de soumettre une suggestion ou un rapport de bogue, recherchez les problèmes de github existants pour voir si votre problème a déjà été signalé.
Licence Apache , version 2.0 . Comme trouvé dans le fichier de licence.
Voir le centre de sécurité d'Intel pour obtenir des informations sur la façon de signaler un problème de sécurité ou une vulnérabilité potentiel.
Voir aussi: Politique de sécurité