aphrodite engine下載 - aphrodite engine源代碼下載

aphrodite engine

Ai源碼

v0.6.5

下載

將生活呼吸到語言

Aphrodite是Pygmalionai的官方後端引擎。它旨在用作Pygmalionai網站的推理端點，並允許為大量快速速度的用戶提供擁抱的面部兼容型號（得益於VLLM的分頁關注）。

阿芙羅狄蒂（Aphrodite）建立並整合了各種項目的傑出工作。

阿芙羅狄蒂開發所需的計算由ARC Compute提供。

消息

（09/2024）v0.6.1在這裡。現在，您可以將FP2中的FP16型號加載到FP7量子格式，以達到極高的吞吐量並節省內存。

（09/2024）V0.6.0釋放，具有巨大的吞吐量改進，許多新的定量格式（包括FP8和LLM-Compressor），不對稱的張量平行，管道平行等等！請查看用戶和開發人員指南的詳盡文檔。

特徵

連續批處理
有效的K/V管理，並從VLLM進行了訴訟
優化的CUDA內核可改善推理
通過AQLM，AWQ，BITSANDBYTES，GGUF，GPTQ，QPTQ，QUIP＃，SMOWERQUANT+，SQUEEZELLM，MARLIN，FP2-FP12進行量化支持
分佈式推理
在FP8 E5M3和E4M3格式下，用於更高上下文長度和吞吐量的8位KV緩存。

Quickstart

安裝引擎：

pip install -U aphrodite-engine

然後啟動一個模型：

aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct

這將創建一個與OpenAI兼容的API服務器，可以在Localhost的端口2242訪問。您可以將API插入支持OpenAI的UI，例如sillytavern。

請參閱文檔，以獲取可以傳遞給引擎的參數和標誌的完整列表。

您可以在此處的演示中使用引擎玩：

Docker

此外，我們提供了一個docker映像，以便於部署。這是讓您入門的基本命令：

docker run --runtime nvidia --gpus all 
    -v ~ /.cache/huggingface:/root/.cache/huggingface 
    # --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" 
    -p 2242:2242 
    --ipc=host 
    alpindale/aphrodite-openai:latest 
    --model NousResearch/Meta-Llama-3.1-8B-Instruct 
    --tensor-parallel-size 8 
    --api-keys " sk-empty "

這將拉動Aphrodite引擎圖像（〜8GIB下載），並在端口2242上使用Llama-3.1-8B-Instruct模型啟動引擎。

要求

操作系統：Linux（或Windows WSL）
Python：3.8至3.12

對於Windows用戶，建議使用Tabbyapi，如果您不需要批處理支持。

構建要求：

cuda> = 11

有關支持的設備，請參見此處。一般而言，所有半現代GPU都得到支持 - 直到Pascal（GTX 10xx，P40等），我們還支持AMD GPU，Intel CPU和GPU，GOGEE TPU和AWS PELLENTIA。

筆記

根據設計，阿芙羅狄蒂佔用GPU VRAM的90％。如果您不在大規模提供LLM，則可能需要限制其所佔用的內存量。您可以在API示例中使用--gpu-memory-utilization 0.6 （0.6表示60％）來完成此操作。
您可以通過運行aphrodite run --help查看命令的完整列表。