Основная филиал процессора | ? Быстрый старт | Документации | ? Установка | LLM пример
Главный графический графический процессор Главный филиал | ? Быстрый старт | Документации | ? Установка | LLM пример
Extension Intel® для Pytorch* Extens Pytorch* с актуальными функциями оптимизации для дополнительного повышения производительности на аппаратном обеспечении Intel. Оптимизации используют преимущества Intel® Advanced Vector Vector Extensions 512 (Intel® AVX-512) Инструкции векторной нейронной сети (VNNI) и расширения Intel® Advanced Matrix (Intel® AMX) на процессорах Intel, а также Intel X E Matrix Extensions (XMX) AI включает в INTEL Discrete GPU. Кроме того, расширение Intel® для Pytorch* обеспечивает простое ускорение графического процессора для дискретных графических процессоров Intel через устройство Pytorch* XPU.
В нынешнем технологическом ландшафте генеративные рабочие нагрузки и модели AI (Genai) привлекли широкое внимание и популярность. Большие языковые модели (LLMS) стали доминирующими моделями, управляющими этими приложениями Genai. Начиная с 2.1.0, конкретные оптимизации для определенных моделей LLM вводятся в расширении Intel® для Pytorch*. Проверьте оптимизации LLM для получения подробной информации.
| Модель семьи | Название модели (Huggingface Hub) | FP32 | BF16 | Статическое квантование Int8 | Квантование только веса int8 | Квантование только веса int4 |
|---|---|---|---|---|---|---|
| Лама | Meta-Llama/Llama-2-7b-HF | ? | ? | ? | ? | ? |
| Лама | Метама/лама-2-13b-HF | ? | ? | ? | ? | ? |
| Лама | Meta-Llama/Llama-2-70B-HF | ? | ? | ? | ? | ? |
| Лама | Метамама/мета-лама-3-8B | ? | ? | ? | ? | ? |
| Лама | Метама/Метама-3-70b | ? | ? | ? | ? | ? |
| Лама | Meta-Llama/Meta-Llama-3.1-8b-Instruct | ? | ? | ? | ? | ? |
| Лама | Meta-Llama/Llama-3.2-3b-Instruct | ? | ? | ? | ? | ? |
| Лама | Meta-Llama/Llama-3.2-11B-Vision-Instruct | ? | ? | ? | ||
| GPT-J | Eleutherai/GPT-J-6B | ? | ? | ? | ? | ? |
| GPT-neox | Eleutherai/GPT-neox-20b | ? | ? | ? | ? | ? |
| ДОЛЛИ | DataBricks/Dolly-V2-12B | ? | ? | ? | ? | ? |
| Сокол | Tiiuae/Falcon-7b | ? | ? | ? | ? | ? |
| Сокол | Tiiuae/Falcon-11b | ? | ? | ? | ? | ? |
| Сокол | Tiiuae/Falcon-40b | ? | ? | ? | ? | ? |
| Опт | Facebook/Opt-30b | ? | ? | ? | ? | ? |
| Опт | Facebook/Opt-1.3b | ? | ? | ? | ? | ? |
| Цвести | BigScience/Bloom-1B7 | ? | ? | ? | ? | ? |
| CodeGen | Salesforce/Codegen-2b-Multi | ? | ? | ? | ? | ? |
| Бачуань | Baichuan-Inc/Baichuan2-7b-Chat | ? | ? | ? | ? | ? |
| Бачуань | Baichuan-Inc/Baichuan2-13b-Chat | ? | ? | ? | ? | ? |
| Бачуань | Baichuan-Inc/Baichuan-13b-Chat | ? | ? | ? | ? | ? |
| Чатглм | Thudm/Chatglm3-6b | ? | ? | ? | ? | ? |
| Чатглм | Thudm/Chatglm2-6b | ? | ? | ? | ? | ? |
| Gptbigcode | BigCode/StarCoder | ? | ? | ? | ? | ? |
| T5 | Google/Flan-T5-xl | ? | ? | ? | ? | |
| Мпт | mosaicml/mpt-7b | ? | ? | ? | ? | ? |
| Мистраль | Мистралай/Мистраль-7b-V0.1 | ? | ? | ? | ? | ? |
| Миктральный | Mistralai/Mixtral-8x7b-v0.1 | ? | ? | ? | ? | |
| Стаблм | Стабильность/Стаблм-2-1_6B | ? | ? | ? | ? | ? |
| Qwen | QWEN/QWEN-7B-Chat | ? | ? | ? | ? | ? |
| Qwen | QWEN/QWEN2-7B | ? | ? | ? | ? | ? |
| Ллава | Liuhootian/Llava-V1.5-7b | ? | ? | ? | ? | |
| Git | Microsoft/Git-баз | ? | ? | ? | ||
| Юань | Ieityuan/yuan2-102b-hf | ? | ? | ? | ||
| Физ | Microsoft/Phi-2 | ? | ? | ? | ? | ? |
| Физ | Microsoft/Phi-3-Mini-4K-Instruct | ? | ? | ? | ? | ? |
| Физ | Microsoft/Phi-3-Mini-128K-Instruct | ? | ? | ? | ? | ? |
| Физ | Microsoft/Phi-3-Medium-4K-Инструк | ? | ? | ? | ? | ? |
| Физ | Microsoft/Phi-3-Medium-128K-Instruct | ? | ? | ? | ? | ? |
| Шепот | Openai/Whisper-Large-V2 | ? | ? | ? | ? |
Примечание . Приведенные выше проверенные модели (включая другие модели в одном и том же семействе моделей, такие как «Коделлама/Коделлама-7B-HF» из семейства Llama), хорошо поддерживаются всеми оптимизациями, такими как непрямой доступ кеша KV, плавленость и индивидуальные линейные ядра. Мы работаем в процессе, чтобы лучше поддерживать модели в таблицах с различными типами данных. Кроме того, в будущем будет оптимизировано больше моделей.
Кроме того, Intel® Extension для Pytorch* представляет API оптимизации уровня модуля (функция прототипа) с момента выпуска 2.3.0. Эта функция предоставляет оптимизированные альтернативы для нескольких часто используемых модулей LLM и функциональных возможностей для оптимизации нишевой или индивидуальной LLMS. Пожалуйста, прочитайте практику оптимизации уровня модуля LLM, чтобы лучше понять, как оптимизировать свой собственный LLM и достичь лучшей производительности.
Команда отслеживает ошибки и запросы на улучшение, используя проблемы GitHub. Перед тем, как отправить предложение или отчет об ошибке, найдите существующие проблемы GitHub, чтобы выяснить, не сообщается ли о вашей проблеме.
Apache License , версия 2.0 . Как найдено в файле лицензии.
См. Центр безопасности Intel для получения информации о том, как сообщить о потенциальной проблеме безопасности или уязвимости.
Смотрите также: Политика безопасности