CPU -Hauptzweig | ? Schneller Start | Dokumentationen | Installation | LLM Beispiel
GPU Hauptzweig | ? Schneller Start | Dokumentationen | Installation | LLM Beispiel
Intel®-Erweiterung für Pytorch* erweitert Pytorch* mit aktuellen Funktionen Optimierungen für einen zusätzlichen Leistungssteiger für Intel-Hardware. Optimierungen nutzen Intel® Advanced Vector Extensions 512 (Intel® AVX-512) Vektor-Anweisungen (VNNI) und Intel® Advanced Matrix Extensions (Intel® AMX) auf Intel CPUs sowie Intel X E- Matrix-Erweiterungen (XMX) AI-Motors bei Intel diskret. Darüber hinaus bietet Intel® -Erweiterung für Pytorch* eine einfache GPU -Beschleunigung für Intel Discrete GPUs über das Pytorch* XPU -Gerät.
In der aktuellen technologischen Landschaft haben Generative AI (Genai) Workloads und Modelle weit verbreitete Aufmerksamkeit und Popularität erlangt. Große Sprachmodelle (LLMs) haben sich als die dominierenden Modelle entwickelt, die diese Genai -Anwendungen antreiben. Ab 2.1.0 werden spezifische Optimierungen für bestimmte LLM -Modelle in der Intel® -Erweiterung für Pytorch*eingeführt. Überprüfen Sie die LLM -Optimierungen für Details.
| Modellfamilie | Modellname (Huggingface -Hub) | FP32 | BF16 | Statische Quantisierung int8 | Gewicht nur Quantisierung int8 | Gewicht nur Quantisierung int4 |
|---|---|---|---|---|---|---|
| LAMA | meta-llama/lama-2-7b-hf | ? | ? | ? | ? | ? |
| LAMA | meta-llama/lama-2-13b-hf | ? | ? | ? | ? | ? |
| LAMA | meta-llama/lama-2-70b-hf | ? | ? | ? | ? | ? |
| LAMA | meta-llama/meta-llama-3-8b | ? | ? | ? | ? | ? |
| LAMA | meta-llama/meta-llama-3-70b | ? | ? | ? | ? | ? |
| LAMA | meta-llama/meta-llama-3.1-8b-instruct | ? | ? | ? | ? | ? |
| LAMA | meta-llama/llama-3.2-3b-instruct | ? | ? | ? | ? | ? |
| LAMA | meta-llama/llama-3.2-11b-vision-instruct | ? | ? | ? | ||
| GPT-J | Eleutherai/GPT-J-6B | ? | ? | ? | ? | ? |
| GPT-Neox | Eleutherai/GPT-NEOX-20B | ? | ? | ? | ? | ? |
| Dolly | Databricks/Dolly-V2-12B | ? | ? | ? | ? | ? |
| FALKE | tiiuae/falcon-7b | ? | ? | ? | ? | ? |
| FALKE | tiiuae/falcon-11b | ? | ? | ? | ? | ? |
| FALKE | tiiuae/falcon-40b | ? | ? | ? | ? | ? |
| Opt | Facebook/Opt-30b | ? | ? | ? | ? | ? |
| Opt | Facebook/opt-1.3b | ? | ? | ? | ? | ? |
| Blühen | BigScience/Bloom-1b7 | ? | ? | ? | ? | ? |
| Codegen | Salesforce/Codegen-2B-Multi | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan2-7b-Chat | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan2-13b-Chat | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan-13b-Chat | ? | ? | ? | ? | ? |
| Chatglm | Thudm/chatglm3-6b | ? | ? | ? | ? | ? |
| Chatglm | Thudm/chatglm2-6b | ? | ? | ? | ? | ? |
| GptBigCode | BigCode/StarCoder | ? | ? | ? | ? | ? |
| T5 | Google/Flan-T5-XL | ? | ? | ? | ? | |
| Mpt | Mosaicml/MPT-7b | ? | ? | ? | ? | ? |
| Mistral | Mistralai/Mistral-7b-V0.1 | ? | ? | ? | ? | ? |
| Mixtral | Mistralai/Mixtral-8x7b-V0.1 | ? | ? | ? | ? | |
| Stablelm | Stabilityai/Stablelm-2-1_6b | ? | ? | ? | ? | ? |
| Qwen | QWEN/QWEN-7B-CHAT | ? | ? | ? | ? | ? |
| Qwen | Qwen/Qwen2-7b | ? | ? | ? | ? | ? |
| Llava | liuhaotian/llava-v1.5-7b | ? | ? | ? | ? | |
| Git | Microsoft/Git-Base | ? | ? | ? | ||
| Yuan | Ieityuan/Yuan2-102B-HF | ? | ? | ? | ||
| Phi | Microsoft/Phi-2 | ? | ? | ? | ? | ? |
| Phi | Microsoft/Phi-3-Mini-4K-Instruktur | ? | ? | ? | ? | ? |
| Phi | Microsoft/Phi-3-Mini-128K-Instruktur | ? | ? | ? | ? | ? |
| Phi | Microsoft/PHI-3-Medium-4K-Instruktur | ? | ? | ? | ? | ? |
| Phi | Microsoft/PHI-3-MEDIUM-128K-ISTRUCT | ? | ? | ? | ? | ? |
| Flüstern | OpenAI/Whisper-Large-V2 | ? | ? | ? | ? |
Hinweis : Die oben genannten verifizierten Modelle (einschließlich anderer Modelle in derselben Modellfamilie wie "Codellama/Codellama-7b-HF" aus der Lama-Familie) werden mit allen Optimierungen wie indirektem Zugriff KV-Cache, verschmolzenem Rope und angepassten linearen Kernern gut unterstützt. Wir arbeiten in Arbeit, um die Modelle in den Tabellen mit verschiedenen Datentypen besser zu unterstützen. Darüber hinaus werden in Zukunft weitere Modelle optimiert.
Darüber hinaus führt die Intel® -Erweiterung für Pytorch* die Optimierungs -APIs der Modulebene (Prototyp -Funktion) seit Release 2.3.0 ein. Die Funktion bietet optimierte Alternativen für mehrere häufig verwendete LLM -Module und -funktionalitäten für die Optimierungen der Nische oder maßgeschneiderte LLMs. Bitte lesen Sie die Optimierungspraxis der LLM -Modulebene, um besser zu verstehen, wie Sie Ihre eigene LLM optimieren und eine bessere Leistung erzielen können.
Das Team verfolgt Fehler und Verbesserungsanforderungen anhand von GitHub -Problemen. Suchen Sie vor dem Einreichen eines Vorschlags oder eines Fehlerberichts die vorhandenen Github -Probleme, um festzustellen, ob Ihr Problem bereits gemeldet wurde.
Apache -Lizenz , Version 2.0 . Wie in der Lizenzdatei gefunden.
Informationen zur Berichterstattung über ein potenzielles Sicherheitsproblem oder eine potenzielle Sicherheitsprobleme oder eine Sicherheitsanfälligkeit finden Sie in der Intel Security Center.
Siehe auch: Sicherheitsrichtlinie