Afrodite é o mecanismo de back -end oficial para Pygmalionai. Ele foi projetado para servir como endpoint de inferência para o site da Pygmalionionai e permitir servir modelos compatíveis com o rosto para um grande número de usuários com velocidades rápidas em chamas (graças à atenção paginada da VLLM).
Afrodite se baseia e integra o trabalho excepcional de vários projetos.
A computação necessária para o desenvolvimento da Afrodite é fornecida pelo ARC Compute.
(09/2024) V0.6.1 está aqui. Agora você pode carregar os modelos FP16 nos formatos FP2 a FP7 Quant, para obter uma taxa de transferência extremamente alta e salvar na memória.
(09/2024) V0.6.0 é liberado, com enormes melhorias de taxa de transferência, muitos novos formatos de quant (incluindo FP8 e LLM-Compressor), paralelo de tensor assimétrico, paralelo de pipeline e muito mais! Confira a documentação exaustiva para os guias de usuário e desenvolvedor.
Instale o motor:
pip install -U aphrodite-engineEm seguida, inicie um modelo:
aphrodite run meta-llama/Meta-Llama-3.1-8B-InstructIsso criará um servidor API compatível com o OpenAI que pode ser acessado na porta 2242 do host local. Você pode conectar a API a uma interface do usuário que suporta o OpenAI, como o Sillytavern.
Consulte a documentação para obter a lista completa de argumentos e sinalizadores que você pode passar para o mecanismo.
Você pode brincar com o motor na demonstração aqui:
Além disso, fornecemos uma imagem do Docker para facilitar a implantação. Aqui está um comando básico para você começar:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "Isso puxará a imagem do motor Afrodite (download ~ 8GIB) e iniciará o mecanismo com o modelo LLAMA-3.1-8B-INSTRUCT na porta 2242.
Para usuários do Windows, é recomendável usar o Tabbyapi, se você não precisar de suporte em lote.
Para dispositivos suportados, veja aqui. De um modo geral, todas as GPUs semi -modernas são suportadas - até Pascal (GTX 10xx, P40, etc.) também apoiamos GPUs AMD, Intel CPUs e GPUs, Google TPU e AWS Inferentia.
Por design, Afrodite ocupa 90% do VRAM da sua GPU. Se você não está servindo um LLM em escala, convém limitar a quantidade de memória que ele ocupa. Você pode fazer isso no exemplo da API iniciando o servidor com a --gpu-memory-utilization 0.6 (0,6 significa 60%).
Você pode visualizar a lista completa de comandos executando aphrodite run --help .
O motor de Afrodite não teria sido possível sem o trabalho fenomenal de outros projetos de código aberto. Créditos vão para:
Todos são bem -vindos para contribuir. Você pode apoiar o projeto abrindo solicitações de tração de novos recursos, correções ou melhorias gerais de UX.