Aphrodite是Pygmalionai的官方后端引擎。它旨在用作Pygmalionai网站的推理端点,并允许为大量快速速度的用户提供拥抱的面部兼容型号(得益于VLLM的分页关注)。
阿芙罗狄蒂(Aphrodite)建立并整合了各种项目的杰出工作。
阿芙罗狄蒂开发所需的计算由ARC Compute提供。
(09/2024)v0.6.1在这里。现在,您可以将FP2中的FP16型号加载到FP7量子格式,以达到极高的吞吐量并节省内存。
(09/2024)V0.6.0释放,具有巨大的吞吐量改进,许多新的定量格式(包括FP8和LLM-Compressor),不对称的张量平行,管道平行等等!请查看用户和开发人员指南的详尽文档。
安装引擎:
pip install -U aphrodite-engine然后启动一个模型:
aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct这将创建一个与OpenAI兼容的API服务器,可以在Localhost的端口2242访问。您可以将API插入支持OpenAI的UI,例如sillytavern。
请参阅文档,以获取可以传递给引擎的参数和标志的完整列表。
您可以在此处的演示中使用引擎玩:
此外,我们提供了一个docker映像,以便于部署。这是让您入门的基本命令:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "这将拉动Aphrodite引擎图像(〜8GIB下载),并在端口2242上使用Llama-3.1-8B-Instruct模型启动引擎。
对于Windows用户,建议使用Tabbyapi,如果您不需要批处理支持。
有关支持的设备,请参见此处。一般而言,所有半现代GPU都得到支持 - 直到Pascal(GTX 10xx,P40等),我们还支持AMD GPU,Intel CPU和GPU,GOGEE TPU和AWS PELLENTIA。
根据设计,阿芙罗狄蒂占用GPU VRAM的90%。如果您不在大规模提供LLM,则可能需要限制其所占用的内存量。您可以在API示例中使用--gpu-memory-utilization 0.6 (0.6表示60%)来完成此操作。
您可以通过运行aphrodite run --help查看命令的完整列表。
没有其他开源项目的惊人工作,阿芙罗狄蒂发动机将是不可能的。学分转到:
欢迎大家做出贡献。您可以通过打开有关新功能,修复程序或一般UX改进的拉动请求来支持该项目。