Афродита является официальным бэкэнд -двигателем для Pygmalionai. Он предназначен для того, чтобы служить конечной точкой вывода для веб-сайта Pygmalionai и для того, чтобы обслуживать совместимые с лицом модели для большого количества пользователей с пылающими быстрыми скоростями (благодаря PLLM Page Atteles).
Афродита опирается и интегрирует исключительную работу из различных проектов.
Вычисление, необходимое для разработки Афродиты, обеспечивается ARC Compute.
(09/2024) v0.6.1 здесь. Теперь вы можете загрузить модели FP16 в форматах FP2 -FP7, чтобы достичь чрезвычайно высокой пропускной способности и сохранить память.
(09/2024) V0.6.0 выпускается, с огромными улучшениями пропускной способности, множество новых квантовых форматов (включая FP8 и LLM-компрессор), асимметричный тензор, параллель и многое другое! Пожалуйста, ознакомьтесь с исчерпывающей документацией для руководств пользователя и разработчика.
Установите двигатель:
pip install -U aphrodite-engineЗатем запустите модель:
aphrodite run meta-llama/Meta-Llama-3.1-8B-InstructЭто создаст API-сервер, совместимый с OpenAI, к которому можно получить доступ на порту 2242 LocalHost. Вы можете подключить API к пользовательскому интерфейсу, который поддерживает OpenAI, такой как SillyTavern.
Пожалуйста, обратитесь к документации для полного списка аргументов и флагов, которые вы можете передать в двигатель.
Вы можете поиграть с двигателем в демонстрации здесь:
Кроме того, мы предоставляем изображение Docker для легкого развертывания. Вот базовая команда, чтобы начать вас:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "Это вытащит изображение двигателя Aphrodite (загрузка ~ 8GIB) и запустит двигатель с моделью Llama-3.1-8B-Instruct в порту 2242.
Для пользователей Windows рекомендуется вместо этого использовать Tabbyapi, если вам не нужна партийная поддержка.
Для поддерживаемых устройств см. Здесь. Вообще говоря, все полумодернистские графические процессоры поддерживаются - вплоть до Pascal (GTX 10xx, P40 и т. Д.) Мы также поддерживаем графические процессоры AMD, процессоры Intel и графические процессоры, Google TPU и AWS Conferentia.
По дизайну Афродита занимает 90% VRAM вашего графического процессора. Если вы не обслуживаете LLM в масштабе, вы можете ограничить объем памяти, которую он занимает. Вы можете сделать это в примере API, запустив сервер с --gpu-memory-utilization 0.6 (0,6 означает 60%).
Вы можете просмотреть полный список команд, запустив aphrodite run --help .
Двигатель Aphrodite был бы невозможным без феноменальной работы других проектов с открытым исходным кодом. Кредиты идут:
Все могут внести свой вклад. Вы можете поддержать проект, открыв запросы на привлечение новых функций, исправлений или общих улучшений UX.