Afrodita es el motor de backend oficial de Pygmalionai. Está diseñado para servir como punto final de inferencia para el sitio web de Pygmalionai, y para permitir servir a los modelos compatibles con la cara a una gran cantidad de usuarios con velocidades rápidas ardientes (gracias a la atención de VLLM).
Afrodita se basa e integra el trabajo excepcional de varios proyectos.
El cálculo de ARC proporciona el cálculo necesario para el desarrollo de Afrodita.
(09/2024) V0.6.1 está aquí. Ahora puede cargar modelos FP16 en formatos cuantitativos FP2 a FP7, para lograr un rendimiento extremadamente alto y ahorrar en la memoria.
(09/2024) V0.6.0 se lanza, con grandes mejoras de rendimiento, muchos formatos de Quant (incluidos FP8 y LLM-Compressor), tensor asimétrico paralelo, paralelo de tubería y más! Consulte la documentación exhaustiva para las guías de usuario y desarrollador.
Instale el motor:
pip install -U aphrodite-engineLuego inicia un modelo:
aphrodite run meta-llama/Meta-Llama-3.1-8B-InstructEsto creará un servidor API compatible con OpenAI al que se puede acceder en el puerto 2242 del localhost. Puede conectar la API a una interfaz de usuario que admite OpenAI, como SillyTavern.
Consulte la documentación para obtener la lista completa de argumentos y banderas que puede pasar al motor.
Puedes jugar con el motor en la demostración aquí:
Además, proporcionamos una imagen de Docker para una fácil implementación. Aquí hay un comando básico para comenzar:
docker run --runtime nvidia --gpus all
-v ~ /.cache/huggingface:/root/.cache/huggingface
# --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7"
-p 2242:2242
--ipc=host
alpindale/aphrodite-openai:latest
--model NousResearch/Meta-Llama-3.1-8B-Instruct
--tensor-parallel-size 8
--api-keys " sk-empty "Esto extraerá la imagen del motor Afrodita (~ 8GIB Descargar) y lanzará el motor con el modelo LLAMA-3.1-8B-Instructo en el puerto 2242.
Para los usuarios de Windows, se recomienda usar Tabbyapi, si no necesita soporte de lotes.
Para dispositivos compatibles, ver aquí. En términos generales, todas las GPU semi -modernas son compatibles con PASCAL (GTX 10XX, P40, etc.) También apoyamos las GPU AMD, las CPU Intel y las GPU, Google TPU e inferentia AWS.
Por diseño, Afrodita ocupa el 90% de la VRAM de su GPU. Si no está sirviendo a una LLM a escala, es posible que desee limitar la cantidad de memoria que aborda. Puede hacer esto en el ejemplo de API iniciando el servidor con la --gpu-memory-utilization 0.6 (0.6 significa 60%).
Puede ver la lista completa de comandos ejecutando aphrodite run --help .
El motor de Afrodita no habría sido posible sin el trabajo fenomenal de otros proyectos de código abierto. Los créditos van a:
Todos son bienvenidos a contribuir. Puede admitir el proyecto abriendo solicitudes de extracción de nuevas funciones, correcciones o mejoras generales de UX.