aphrodite engine下载 - aphrodite engine源代码下载

aphrodite engine

Ai源码

v0.6.5

下载

将生活呼吸到语言

Aphrodite是Pygmalionai的官方后端引擎。它旨在用作Pygmalionai网站的推理端点，并允许为大量快速速度的用户提供拥抱的面部兼容型号（得益于VLLM的分页关注）。

阿芙罗狄蒂（Aphrodite）建立并整合了各种项目的杰出工作。

阿芙罗狄蒂开发所需的计算由ARC Compute提供。

消息

（09/2024）v0.6.1在这里。现在，您可以将FP2中的FP16型号加载到FP7量子格式，以达到极高的吞吐量并节省内存。

（09/2024）V0.6.0释放，具有巨大的吞吐量改进，许多新的定量格式（包括FP8和LLM-Compressor），不对称的张量平行，管道平行等等！请查看用户和开发人员指南的详尽文档。

特征

连续批处理
有效的K/V管理，并从VLLM进行了诉讼
优化的CUDA内核可改善推理
通过AQLM，AWQ，BITSANDBYTES，GGUF，GPTQ，QPTQ，QUIP＃，SMOWERQUANT+，SQUEEZELLM，MARLIN，FP2-FP12进行量化支持
分布式推理
在FP8 E5M3和E4M3格式下，用于更高上下文长度和吞吐量的8位KV缓存。

Quickstart

安装引擎：

pip install -U aphrodite-engine

然后启动一个模型：

aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct

这将创建一个与OpenAI兼容的API服务器，可以在Localhost的端口2242访问。您可以将API插入支持OpenAI的UI，例如sillytavern。

请参阅文档，以获取可以传递给引擎的参数和标志的完整列表。

您可以在此处的演示中使用引擎玩：

Docker

此外，我们提供了一个docker映像，以便于部署。这是让您入门的基本命令：

docker run --runtime nvidia --gpus all 
    -v ~ /.cache/huggingface:/root/.cache/huggingface 
    # --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" 
    -p 2242:2242 
    --ipc=host 
    alpindale/aphrodite-openai:latest 
    --model NousResearch/Meta-Llama-3.1-8B-Instruct 
    --tensor-parallel-size 8 
    --api-keys " sk-empty "

这将拉动Aphrodite引擎图像（〜8GIB下载），并在端口2242上使用Llama-3.1-8B-Instruct模型启动引擎。

要求

操作系统：Linux（或Windows WSL）
Python：3.8至3.12

对于Windows用户，建议使用Tabbyapi，如果您不需要批处理支持。

构建要求：

cuda> = 11

有关支持的设备，请参见此处。一般而言，所有半现代GPU都得到支持 - 直到Pascal（GTX 10xx，P40等），我们还支持AMD GPU，Intel CPU和GPU，GOGEE TPU和AWS PELLENTIA。

笔记

根据设计，阿芙罗狄蒂占用GPU VRAM的90％。如果您不在大规模提供LLM，则可能需要限制其所占用的内存量。您可以在API示例中使用--gpu-memory-utilization 0.6 （0.6表示60％）来完成此操作。
您可以通过运行aphrodite run --help查看命令的完整列表。