Скачать aphrodite engine - Загрузка исходного кода aphrodite engine

aphrodite engine

AI Исходный код

v0.6.5

Скачать

Вдыхая жизнь на язык

Афродита является официальным бэкэнд -двигателем для Pygmalionai. Он предназначен для того, чтобы служить конечной точкой вывода для веб-сайта Pygmalionai и для того, чтобы обслуживать совместимые с лицом модели для большого количества пользователей с пылающими быстрыми скоростями (благодаря PLLM Page Atteles).

Афродита опирается и интегрирует исключительную работу из различных проектов.

Вычисление, необходимое для разработки Афродиты, обеспечивается ARC Compute.

Новости

(09/2024) v0.6.1 здесь. Теперь вы можете загрузить модели FP16 в форматах FP2 -FP7, чтобы достичь чрезвычайно высокой пропускной способности и сохранить память.

(09/2024) V0.6.0 выпускается, с огромными улучшениями пропускной способности, множество новых квантовых форматов (включая FP8 и LLM-компрессор), асимметричный тензор, параллель и многое другое! Пожалуйста, ознакомьтесь с исчерпывающей документацией для руководств пользователя и разработчика.

Функции

Непрерывное партия
Эффективное управление K/V с Pagegatatingation от VLLM
Оптимизированные ядра CUDA для улучшения вывода
Поддержка квантования через AQLM, AWQ, BitsAndbytes, GGUF, GPTQ, QUIP#, Smoothquant+, Squeezellm, Marlin, FP2-FP12
Распределенный вывод
8-битный кВ-кВ для более высокой длины контекста и пропускной способности, в форматах FP8 E5M3 и E4M3.

QuickStart

Установите двигатель:

pip install -U aphrodite-engine

Затем запустите модель:

aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct

Это создаст API-сервер, совместимый с OpenAI, к которому можно получить доступ на порту 2242 LocalHost. Вы можете подключить API к пользовательскому интерфейсу, который поддерживает OpenAI, такой как SillyTavern.

Пожалуйста, обратитесь к документации для полного списка аргументов и флагов, которые вы можете передать в двигатель.

Вы можете поиграть с двигателем в демонстрации здесь:

Докер

Кроме того, мы предоставляем изображение Docker для легкого развертывания. Вот базовая команда, чтобы начать вас:

docker run --runtime nvidia --gpus all 
    -v ~ /.cache/huggingface:/root/.cache/huggingface 
    # --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" 
    -p 2242:2242 
    --ipc=host 
    alpindale/aphrodite-openai:latest 
    --model NousResearch/Meta-Llama-3.1-8B-Instruct 
    --tensor-parallel-size 8 
    --api-keys " sk-empty "

Это вытащит изображение двигателя Aphrodite (загрузка ~ 8GIB) и запустит двигатель с моделью Llama-3.1-8B-Instruct в порту 2242.

Требования

Операционная система: Linux (или WSL для Windows)
Python: от 3,8 до 3,12

Для пользователей Windows рекомендуется вместо этого использовать Tabbyapi, если вам не нужна партийная поддержка.

Требования к сборке:

Cuda> = 11

Для поддерживаемых устройств см. Здесь. Вообще говоря, все полумодернистские графические процессоры поддерживаются - вплоть до Pascal (GTX 10xx, P40 и т. Д.) Мы также поддерживаем графические процессоры AMD, процессоры Intel и графические процессоры, Google TPU и AWS Conferentia.

Примечания

По дизайну Афродита занимает 90% VRAM вашего графического процессора. Если вы не обслуживаете LLM в масштабе, вы можете ограничить объем памяти, которую он занимает. Вы можете сделать это в примере API, запустив сервер с --gpu-memory-utilization 0.6 (0,6 означает 60%).
Вы можете просмотреть полный список команд, запустив aphrodite run --help .