Aphrodite是Pygmalionai的官方後端引擎。它旨在用作Pygmalionai網站的推理端點,並允許為大量快速速度的用戶提供擁抱的面部兼容型號(得益於VLLM的分頁關注)。
阿芙羅狄蒂(Aphrodite)建立並整合了各種項目的傑出工作。
阿芙羅狄蒂開發所需的計算由ARC Compute提供。
(09/2024)v0.6.1在這裡。現在,您可以將FP2中的FP16型號加載到FP7量子格式,以達到極高的吞吐量並節省內存。
(09/2024)V0.6.0釋放,具有巨大的吞吐量改進,許多新的定量格式(包括FP8和LLM-Compressor),不對稱的張量平行,管道平行等等!請查看用戶和開發人員指南的詳盡文檔。
安裝引擎:
pip install -U aphrodite-engine然後啟動一個模型:
aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct這將創建一個與OpenAI兼容的API服務器,可以在Localhost的端口2242訪問。您可以將API插入支持OpenAI的UI,例如sillytavern。
請參閱文檔,以獲取可以傳遞給引擎的參數和標誌的完整列表。
您可以在此處的演示中使用引擎玩:
此外,我們提供了一個docker映像,以便於部署。這是讓您入門的基本命令:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "這將拉動Aphrodite引擎圖像(〜8GIB下載),並在端口2242上使用Llama-3.1-8B-Instruct模型啟動引擎。
對於Windows用戶,建議使用Tabbyapi,如果您不需要批處理支持。
有關支持的設備,請參見此處。一般而言,所有半現代GPU都得到支持 - 直到Pascal(GTX 10xx,P40等),我們還支持AMD GPU,Intel CPU和GPU,GOGEE TPU和AWS PELLENTIA。
根據設計,阿芙羅狄蒂佔用GPU VRAM的90%。如果您不在大規模提供LLM,則可能需要限制其所佔用的內存量。您可以在API示例中使用--gpu-memory-utilization 0.6 (0.6表示60%)來完成此操作。
您可以通過運行aphrodite run --help查看命令的完整列表。
沒有其他開源項目的驚人工作,阿芙羅狄蒂發動機將是不可能的。學分轉到:
歡迎大家做出貢獻。您可以通過打開有關新功能,修復程序或一般UX改進的拉動請求來支持該項目。