Cabang Utama CPU | ? Mulai Cepat | Dokumentasi | ? Instalasi | Contoh LLM
Cabang Utama GPU | ? Mulai Cepat | Dokumentasi | ? Instalasi | Contoh LLM
Ekstensi Intel® untuk Pytorch* memperluas Pytorch* dengan fitur terkini optimalisasi untuk peningkatan kinerja tambahan pada Intel Hardware. Optimalisasi Manfaatkan Instruksi Vektor Lanjutan Intel® 512 (Intel® AVX-512) Instruksi Jaringan Saraf Vektor (VNNI) dan Ekstensi Matriks Lanjutan Intel® (Intel® AMX) pada CPU Intel serta Intel X E Extensions Matriks (XMX) AI Engine pada Intel Doncree GP. Selain itu, Ekstensi Intel® untuk Pytorch* memberikan akselerasi GPU yang mudah untuk Intel Discrete GPU melalui perangkat Pytorch* XPU.
Dalam lanskap teknologi saat ini, beban kerja dan model AI (Genai) generatif telah mendapatkan perhatian dan popularitas yang luas. Model bahasa besar (LLM) telah muncul sebagai model dominan yang mendorong aplikasi Genai ini. Mulai dari 2.1.0, optimasi spesifik untuk model LLM tertentu diperkenalkan dalam ekstensi Intel® untuk Pytorch*. Periksa optimasi LLM untuk detailnya.
| Keluarga model | Nama model (hub huggingface) | FP32 | BF16 | Kuantisasi statis int8 | Bobot hanya kuantisasi int8 | Hanya kuantisasi berat int4 |
|---|---|---|---|---|---|---|
| Llama | Meta-llama/llama-2-7b-hf | ? | ? | ? | ? | ? |
| Llama | Meta-llama/llama-2-13b-hf | ? | ? | ? | ? | ? |
| Llama | Meta-llama/llama-2-70b-hf | ? | ? | ? | ? | ? |
| Llama | Meta-llama/meta-llama-3-8b | ? | ? | ? | ? | ? |
| Llama | meta-llama/meta-llama-3-70b | ? | ? | ? | ? | ? |
| Llama | meta-llama/meta-llama-3.1-8b-instruct | ? | ? | ? | ? | ? |
| Llama | meta-llama/llama-3.2-3b-instruct | ? | ? | ? | ? | ? |
| Llama | meta-llama/llama-3.2-11b-vision-instruct | ? | ? | ? | ||
| Gpt-j | Eleutherai/GPT-J-6B | ? | ? | ? | ? | ? |
| GPT-NEOX | Eleutherai/GPT-NEOX-20B | ? | ? | ? | ? | ? |
| BONEKA | DataBricks/Dolly-V2-12B | ? | ? | ? | ? | ? |
| ELANG | tiiuae/falcon-7b | ? | ? | ? | ? | ? |
| ELANG | tiiuae/falcon-11b | ? | ? | ? | ? | ? |
| ELANG | tiiuae/falcon-40b | ? | ? | ? | ? | ? |
| MEMILIH | Facebook/OPT-30B | ? | ? | ? | ? | ? |
| MEMILIH | Facebook/OPT-1.3B | ? | ? | ? | ? | ? |
| Bunga | BigScience/Bloom-1B7 | ? | ? | ? | ? | ? |
| Codegen | Salesforce/Codegen-2B-Multi | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan2-7B-CHAT | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan2-13B-CHAT | ? | ? | ? | ? | ? |
| Baichuan | Baichuan-Inc/Baichuan-13b-CHAT | ? | ? | ? | ? | ? |
| Chatglm | Thudm/chatglm3-6b | ? | ? | ? | ? | ? |
| Chatglm | Thudm/chatglm2-6b | ? | ? | ? | ? | ? |
| GPTBIGCODE | Bigcode/StarCoder | ? | ? | ? | ? | ? |
| T5 | Google/Flan-T5-XL | ? | ? | ? | ? | |
| MPT | mosaicml/mpt-7b | ? | ? | ? | ? | ? |
| Mistral | MISTRALAI/MISTRAL-7B-V0.1 | ? | ? | ? | ? | ? |
| Mixtral | MISTRALAI/MIXTRAL-8X7B-V0.1 | ? | ? | ? | ? | |
| Stablelm | stabilityai/stablelm-2-1_6b | ? | ? | ? | ? | ? |
| Qwen | QWEN/QWEN-7B-CHAT | ? | ? | ? | ? | ? |
| Qwen | QWEN/QWEN2-7B | ? | ? | ? | ? | ? |
| Llava | LiUhaoTian/Llava-V1.5-7B | ? | ? | ? | ? | |
| Git | Microsoft/Git-Base | ? | ? | ? | ||
| Yuan | IEITYUAN/YUAN2-102B-HF | ? | ? | ? | ||
| Phi | Microsoft/Phi-2 | ? | ? | ? | ? | ? |
| Phi | Microsoft/phi-3-mini-4K-instruct | ? | ? | ? | ? | ? |
| Phi | Microsoft/phi-3-mini-128k-instruct | ? | ? | ? | ? | ? |
| Phi | Microsoft/phi-3-medium-4K-instruct | ? | ? | ? | ? | ? |
| Phi | Microsoft/phi-3-medium-128k-instruct | ? | ? | ? | ? | ? |
| Berbisik | Openai/Whisper-Large-V2 | ? | ? | ? | ? |
Catatan : Model yang diverifikasi di atas (termasuk model lain dalam keluarga model yang sama, seperti "Codellama/Codellama-7b-HF" dari Llama Family) didukung dengan baik dengan semua optimisasi seperti cache KV Access tidak langsung, tali yang menyatu, dan kernel linier yang disesuaikan. Kami bekerja dalam proses untuk mendukung model yang lebih baik dalam tabel dengan berbagai tipe data. Selain itu, lebih banyak model akan dioptimalkan di masa depan.
Selain itu, ekstensi Intel® untuk Pytorch* memperkenalkan API optimisasi level modul (fitur prototipe) sejak rilis 2.3.0. Fitur ini menyediakan alternatif yang dioptimalkan untuk beberapa modul LLM yang umum digunakan dan fungsionalitas untuk optimisasi niche atau LLM yang disesuaikan. Harap baca praktik optimasi level modul LLM untuk lebih memahami cara mengoptimalkan LLM Anda sendiri dan mencapai kinerja yang lebih baik.
Tim melacak bug dan permintaan peningkatan menggunakan masalah GitHub. Sebelum mengirimkan laporan atau laporan bug, cari masalah GitHub yang ada untuk melihat apakah masalah Anda telah dilaporkan.
Lisensi Apache , Versi 2.0 . Seperti yang ditemukan dalam file lisensi.
Lihat Pusat Keamanan Intel untuk informasi tentang cara melaporkan masalah keamanan atau kerentanan potensial.
Lihat juga: Kebijakan Keamanan