Download aphrodite engine - aphrodite engine do download do código -fonte

aphrodite engine

Código-Fonte de IA

v0.6.5

Baixar

Respirando a vida na linguagem

Afrodite é o mecanismo de back -end oficial para Pygmalionai. Ele foi projetado para servir como endpoint de inferência para o site da Pygmalionionai e permitir servir modelos compatíveis com o rosto para um grande número de usuários com velocidades rápidas em chamas (graças à atenção paginada da VLLM).

Afrodite se baseia e integra o trabalho excepcional de vários projetos.

A computação necessária para o desenvolvimento da Afrodite é fornecida pelo ARC Compute.

Notícias

(09/2024) V0.6.1 está aqui. Agora você pode carregar os modelos FP16 nos formatos FP2 a FP7 Quant, para obter uma taxa de transferência extremamente alta e salvar na memória.

(09/2024) V0.6.0 é liberado, com enormes melhorias de taxa de transferência, muitos novos formatos de quant (incluindo FP8 e LLM-Compressor), paralelo de tensor assimétrico, paralelo de pipeline e muito mais! Confira a documentação exaustiva para os guias de usuário e desenvolvedor.

Características

Lotes contínuos
Gerenciamento de K/V eficiente com Pagedattion da VLLM
Kernels CUDA otimizados para inferência melhorada
Suporte de quantização via AQLM, AWQ, Bitsandbytes, GGUF, GPTQ, Quip#, Smoothquant+, Squeezellm, Marlin, FP2-FP12
Inferência distribuída
Cache KV de 8 bits para comprimentos de contexto mais altos e taxa de transferência, nos formatos FP8 E5M3 e E4M3.

Investir rápido

Instale o motor:

pip install -U aphrodite-engine

Em seguida, inicie um modelo:

aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct

Isso criará um servidor API compatível com o OpenAI que pode ser acessado na porta 2242 do host local. Você pode conectar a API a uma interface do usuário que suporta o OpenAI, como o Sillytavern.

Consulte a documentação para obter a lista completa de argumentos e sinalizadores que você pode passar para o mecanismo.

Você pode brincar com o motor na demonstração aqui:

Docker

Além disso, fornecemos uma imagem do Docker para facilitar a implantação. Aqui está um comando básico para você começar:

docker run --runtime nvidia --gpus all 
    -v ~ /.cache/huggingface:/root/.cache/huggingface 
    # --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" 
    -p 2242:2242 
    --ipc=host 
    alpindale/aphrodite-openai:latest 
    --model NousResearch/Meta-Llama-3.1-8B-Instruct 
    --tensor-parallel-size 8 
    --api-keys " sk-empty "

Isso puxará a imagem do motor Afrodite (download ~ 8GIB) e iniciará o mecanismo com o modelo LLAMA-3.1-8B-INSTRUCT na porta 2242.

Requisitos

Sistema Operacional: Linux (ou WSL for Windows)
Python: 3,8 a 3.12

Para usuários do Windows, é recomendável usar o Tabbyapi, se você não precisar de suporte em lote.

Requisitos de construção:

CUDA> = 11

Para dispositivos suportados, veja aqui. De um modo geral, todas as GPUs semi -modernas são suportadas - até Pascal (GTX 10xx, P40, etc.) também apoiamos GPUs AMD, Intel CPUs e GPUs, Google TPU e AWS Inferentia.

Notas

Por design, Afrodite ocupa 90% do VRAM da sua GPU. Se você não está servindo um LLM em escala, convém limitar a quantidade de memória que ele ocupa. Você pode fazer isso no exemplo da API iniciando o servidor com a --gpu-memory-utilization 0.6 (0,6 significa 60%).
Você pode visualizar a lista completa de comandos executando aphrodite run --help .

Agradecimentos

O motor de Afrodite não teria sido possível sem o trabalho fenomenal de outros projetos de código aberto. Créditos vão para:

Vllm (Cacheflow)
Tensorrt-llm
xformers
Flash de atenção
llama.cpp
Autoawq
AutoGPTQ
Squeezellm
Exllamav2
Tabbyapi
AQLM
Koboldai
Geração de texto Webui
Megatron-lm
Raio

Contribuindo

Todos são bem -vindos para contribuir. Você pode apoiar o projeto abrindo solicitações de tração de novos recursos, correções ou melhorias gerais de UX.

Expandir

Informações adicionais

Versão v0.6.5
Tipo Código-Fonte de IA
Data da Última Atualização 2025-09-03
tamanho 9.47MB
Vindo de Github

Aplicativos Relacionados

FNF JS Engine

2024-11-10
Wallpaper Engine The Wandering Earth 2 papel de parede do filme completo

2023-05-24
Mecanismo de modelo PHPnow

2013-10-31
Mecanismo DataLife

2011-05-16
Motor XOOPS

2011-05-05
Mecanismo de modelo Xmark

2010-06-25

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos