Скачать nexa sdk - загрузка исходного кода nexa sdk

nexa sdk

AI Исходный код

v0.0.9.7

Скачать

NEXA-SDK-DEMO.MP4

Nexa SDK - локальная структура вывода на устройстве

On-Device Model Hub | Документация | Раздор | Блоги | X (Twitter)

NEXA SDK -это локальная структура вывода на устройствах для моделей ONNX и GGML, поддерживающая генерацию текста, генерацию изображений, модели зрения на зрение (VLM), аудиоязычные модели, способности речи к тексту (ASR) и текстовые (TTS). Установка через пакет Python или исполняемый установщик.

Функции

Поддержка устройства: ЦП, графический процессор (CUDA, Metal, ROCM), iOS
Сервер: OpenAI-совместимый API, схема JSON для вызова функции и поддержки потоковой передачи
Локальный пользовательский интерфейс: поток для интерактивного развертывания и тестирования модели

Установка параметра 1: исполняемый установщик

Установщик macOS

Установщик Windows

Linux установщик

curl -fsSL https://public-storage.nexa4ai.com/install.sh | sh

FAQ: Невозможно использовать исполняемый файл с уже установленным пакетом Python Nexaai

Попробуйте использовать nexa-exe вместо этого:

nexa-exe < command >

Установка параметра 2: пакет Python

Мы выпустили предварительно построенные колеса для различных версий, платформ и бэкэндов Python для удобной установки на нашей странице индекса.

Процессор

pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/cpu --extra-index-url https://pypi.org/simple --no-cache-dir

Apple GPU (металл)

Для версии GPU поддерживает металл (macOS) :

CMAKE_ARGS= " -DGGML_METAL=ON -DSD_METAL=ON " pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/metal --extra-index-url https://pypi.org/simple --no-cache-dir

FAQ: не может использовать металл/графический процессор на M1

Попробуйте следующую команду:

wget https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-MacOSX-arm64.sh
bash Miniforge3-MacOSX-arm64.sh
conda create -n nexasdk python=3.10
conda activate nexasdk
CMAKE_ARGS= " -DGGML_METAL=ON -DSD_METAL=ON " pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/metal --extra-index-url https://pypi.org/simple --no-cache-dir

Nvidia gpu (cuda)

Чтобы установить с поддержкой CUDA, убедитесь, что у вас установлен Cuda Toolkit 12.0 или более поздний цвет.

Для Linux :

CMAKE_ARGS= " -DGGML_CUDA=ON -DSD_CUBLAS=ON " pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/cu124 --extra-index-url https://pypi.org/simple --no-cache-dir

Для Windows PowerShell :

 $env :CMAKE_ARGS= " -DGGML_CUDA=ON -DSD_CUBLAS=ON " ; pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/cu124 --extra-index-url https://pypi.org/simple --no-cache-dir

Для командной строки Windows :

 set CMAKE_ARGS= " -DGGML_CUDA=ON -DSD_CUBLAS=ON " & pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/cu124 --extra-index-url https://pypi.org/simple --no-cache-dir

Для Windows git bash :

CMAKE_ARGS= " -DGGML_CUDA=ON -DSD_CUBLAS=ON " pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/cu124 --extra-index-url https://pypi.org/simple --no-cache-dir

FAQ: Проблемы по строительству для Llava

Если вы столкнетесь с следующей проблемой во время строительства:

Попробуйте следующую команду:

CMAKE_ARGS= " -DCMAKE_CXX_FLAGS=-fopenmp " pip install nexaai

AMD GPU (ROCM)

Чтобы установить с поддержкой ROCM, убедитесь, что у вас установлен ROCM 6.2.1 или позже.

Для Linux :

CMAKE_ARGS= " -DGGML_HIPBLAS=on " pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/rocm621 --extra-index-url https://pypi.org/simple --no-cache-dir

Графический процессор (Vulkan)

Чтобы установить с поддержкой Vulkan, убедитесь, что у вас установлен Vulkan SDK 1.3.261.1 или позже.

Для Windows PowerShell :

 $env :CMAKE_ARGS= " -DGGML_VULKAN=on " ; pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/vulkan --extra-index-url https://pypi.org/simple --no-cache-dir

Для командной строки Windows :

 set CMAKE_ARGS= " -DGGML_VULKAN=on " & pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/vulkan --extra-index-url https://pypi.org/simple --no-cache-dir

Для Windows git bash :

CMAKE_ARGS= " -DGGML_VULKAN=on " pip install nexaai --prefer-binary --index-url https://github.nexa.ai/whl/vulkan --extra-index-url https://pypi.org/simple --no-cache-dir

Местная сборка

Как клонировать это репо

git clone --recursive https://github.com/NexaAI/nexa-sdk

Если вы забудете использовать --recursive

git submodule update --init --recursive

Затем вы можете построить и установить пакет

pip install -e .

Дифференциация

Ниже приведена наша дифференциация от других подобных инструментов:

Особенность	Nexa Sdk	Оллама	Оптимальный	LM Studio
Поддержка GGML	✅	✅		✅
Поддержка ONNX	✅		✅
Генерация текста	✅	✅	✅	✅
Генерация изображений	✅
Модели на языке зрения	✅	✅	✅	✅
Аудиоязычные модели	✅
Текст в речь	✅		✅
Возможность сервера	✅	✅	✅	✅
Пользовательский интерфейс	✅			✅
Исполняемая установка	✅	✅		✅

Поддерживаемые модели и модельный концентратор

Наш модельный концентратор в конструкции предлагает все типы квантованных моделей (текст, изображение, аудио, мультимодальное) с фильтрами для ОЗУ, размера файла, задач и т. Д., Чтобы помочь вам легко исследовать модели с пользовательским интерфейсом. Исследуйте модели на устройствах в модельном концентраторе On-Device

Поддерживаемые примеры модели (полный список в модели Hub):

Модель	Тип	Формат	Командование
Omniaudio	Аудиолм	Gguf	`nexa run omniaudio`
QWEN2Audio	Аудиолм	Gguf	`nexa run qwen2audio`
Осьминог-В2	Функциональный вызов	Gguf	`nexa run octopus-v2`
Octo-Net	Текст	Gguf	`nexa run octo-net`
Omnivlm	Мультимодальный	Gguf	`nexa run omniVLM`
Наноллава	Мультимодальный	Gguf	`nexa run nanollava`
llava-phi3	Мультимодальный	Gguf	`nexa run llava-phi3`
Llava-Llama3	Мультимодальный	Gguf	`nexa run llava-llama3`
Llava1.6-Mistral	Мультимодальный	Gguf	`nexa run llava1.6-mistral`
Llava1.6-Vicuna	Мультимодальный	Gguf	`nexa run llava1.6-vicuna`
Llama3.2	Текст	Gguf	`nexa run llama3.2`
Llama3-Uncensored	Текст	Gguf	`nexa run llama3-uncensored`
Gemma2	Текст	Gguf	`nexa run gemma2`
QWEN2.5	Текст	Gguf	`nexa run qwen2.5`
MathQwen	Текст	Gguf	`nexa run mathqwen`
CodeQwen	Текст	Gguf	`nexa run codeqwen`
Мистраль	Текст	Gguf/onnx	`nexa run mistral`
DeepSeek-Coder	Текст	Gguf	`nexa run deepseek-coder`
PHI3.5	Текст	Gguf	`nexa run phi3.5`
Openelm	Текст	Gguf	`nexa run openelm`
Стабильная диффузия-V2-1	Генерация изображений	Gguf	`nexa run sd2-1`
Стабильная диффузия-3-медиам	Генерация изображений	Gguf	`nexa run sd3`
Flux.1-Schnell	Генерация изображений	Gguf	`nexa run flux`
LCM-Dreamshaper	Генерация изображений	Gguf/onnx	`nexa run lcm-dreamshaper`
Whisper-Large-V3-Turbo	Речи к тексту	Бин	`nexa run faster-whisper-large-turbo`
Whisper-Nyance.en	Речи к тексту	Onnx	`nexa run whisper-tiny.en`
Mxbai-Embed-Large-V1	Внедрение	Gguf	`nexa embed mxbai`
Номинальный-текст-текст-V1.5	Внедрение	Gguf	`nexa embed nomic`
All-Minilm-L12-V2	Внедрение	Gguf	`nexa embed all-MiniLM-L12-v2:fp16`
Кора-мал	Текст в речь	Gguf	`nexa run bark-small:fp16`

Запустить модели? Объятие или? Моделикоп

Вы можете вытащить, преобразовать (в .gguf), квантовать и запустить Llama.cpp, поддерживаемые моделями генерации текста из HF или MS с помощью NEXA SDK.

Запустить .gguf file

Используйте nexa run -hf <hf-model-id> или nexa run -ms <ms-model-id> для запуска моделей с предоставленными файлами .gguf:

nexa run -hf Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

nexa run -ms Qwen/Qwen2.5-Coder-7B-Instruct-GGUF

Примечание. Вам будет предложено выбрать один файл .gguf. Если ваша желаемая версия квантования имеет несколько разделенных файлов (например, FP16-00001-of-00004), используйте инструмент преобразования NEXA (см. Ниже), чтобы преобразовать и квантовать модель локально.

Конвертировать файлы .safetensors

Установите пакет Nexa Python и установите инструмент преобразования Nexa с помощью pip install "nexaai[convert]" , а затем преобразуйте модели из HuggingFace с nexa convert <hf-model-id> :

nexa convert HuggingFaceTB/SmolLM2-135M-Instruct

Или вы можете преобразовать модели из моделей с nexa convert -ms <ms-model-id> :

nexa convert -ms Qwen/Qwen2.5-7B-Instruct

ПРИМЕЧАНИЕ. Проверьте нашу таблицу лидеров на предмет показателей производительности различных квантованных версий моделей основного языка и документов Huggingface, чтобы узнать о вариантах квантования.

? Вы можете просмотреть загруженные и конвертированные модели со nexa list

Документация

Примечание

Если вы хотите использовать модель ONNX , просто замените pip install nexaai на pip install "nexaai[onnx]" в предоставленные команды.
Если вы хотите провести контрольную оценку , просто замените pip install nexaai на pip install "nexaai[eval]" в предоставленные команды.
Если вы хотите преобразовать и квантовать модели HuggingFace в модели GGUF , просто замените pip install nexaai на pip install "nexaai[convert]" в предоставленные команды.
Для китайских разработчиков мы рекомендуем вам использовать зеркало с открытым исходным кодом Tsinghua в качестве дополнительного индекса URL, просто замените --extra-index-url https://pypi.org/simple с --extra-index-url https://pypi.tuna.tsinghua.edu.cn/simple в предоставлении.

КЛИ Ссылка

Вот краткий обзор главных команд CLI:

nexa run : Запустите вывод для различных задач с использованием моделей GGUF.
nexa onnx : Запустите вывод для различных задач с использованием моделей ONNX.
nexa convert : преобразовать и квантовать модели HuggingFace в модели GGUF.
nexa server : запустите службу генерации текста Nexa AI.
nexa eval : Запустите задачи оценки NEXA AI.
nexa pull : вытащите модель из официального или хаба.
nexa remove : удалите модель с локальной машины.
nexa clean : очистите все файлы модели.
nexa list : Перечислите все модели на локальной машине.
nexa login : Войдите в Nexa API.
nexa whoami : Показать текущую информацию пользователя.
nexa logout : Vogout From Nexa API.

Для получения подробной информации о командах CLI и использовании, пожалуйста, обратитесь к справочному документу CLI.

Запустить локальный сервер

Чтобы запустить локальный сервер, используя модели на вашем локальном компьютере, вы можете использовать команду nexa server . Для получения подробной информации о настройке сервера, конечных точках API и примерах использования, пожалуйста, обратитесь к справочному документу сервера.