Descarga aphrodite engine - Descarga del código fuente aphrodite engine

aphrodite engine

Código Fuente de IA

v0.6.5

Descargar

Dar vida a la vida al lenguaje

Afrodita es el motor de backend oficial de Pygmalionai. Está diseñado para servir como punto final de inferencia para el sitio web de Pygmalionai, y para permitir servir a los modelos compatibles con la cara a una gran cantidad de usuarios con velocidades rápidas ardientes (gracias a la atención de VLLM).

Afrodita se basa e integra el trabajo excepcional de varios proyectos.

El cálculo de ARC proporciona el cálculo necesario para el desarrollo de Afrodita.

Noticias

(09/2024) V0.6.1 está aquí. Ahora puede cargar modelos FP16 en formatos cuantitativos FP2 a FP7, para lograr un rendimiento extremadamente alto y ahorrar en la memoria.

(09/2024) V0.6.0 se lanza, con grandes mejoras de rendimiento, muchos formatos de Quant (incluidos FP8 y LLM-Compressor), tensor asimétrico paralelo, paralelo de tubería y más! Consulte la documentación exhaustiva para las guías de usuario y desarrollador.

Características

Lotes continuos
Gestión eficiente de K/V con Pagedatent de VLLM
Núcleos CUDA optimizados para una inferencia mejorada
Soporte de cuantificación a través de AQLM, AWQ, Bitsandbytes, Gguf, GPTQ, Quip#, Smoothquant+, Squeezellm, Marlin, FP2-FP12
Inferencia distribuida
Cache de KV de 8 bits para mayores longitudes de contexto y rendimiento, tanto en formatos FP8 E5M3 y E4M3.

Inicio rápido

Instale el motor:

pip install -U aphrodite-engine

Luego inicia un modelo:

aphrodite run meta-llama/Meta-Llama-3.1-8B-Instruct

Esto creará un servidor API compatible con OpenAI al que se puede acceder en el puerto 2242 del localhost. Puede conectar la API a una interfaz de usuario que admite OpenAI, como SillyTavern.

Consulte la documentación para obtener la lista completa de argumentos y banderas que puede pasar al motor.

Puedes jugar con el motor en la demostración aquí:

Estibador

Además, proporcionamos una imagen de Docker para una fácil implementación. Aquí hay un comando básico para comenzar:

docker run --runtime nvidia --gpus all 
    -v ~ /.cache/huggingface:/root/.cache/huggingface 
    # --env "CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7" 
    -p 2242:2242 
    --ipc=host 
    alpindale/aphrodite-openai:latest 
    --model NousResearch/Meta-Llama-3.1-8B-Instruct 
    --tensor-parallel-size 8 
    --api-keys " sk-empty "

Esto extraerá la imagen del motor Afrodita (~ 8GIB Descargar) y lanzará el motor con el modelo LLAMA-3.1-8B-Instructo en el puerto 2242.

Requisitos

Sistema operativo: Linux (o WSL para Windows)
Python: 3.8 a 3.12

Para los usuarios de Windows, se recomienda usar Tabbyapi, si no necesita soporte de lotes.

Requisitos de compilación:

CUDA> = 11

Para dispositivos compatibles, ver aquí. En términos generales, todas las GPU semi -modernas son compatibles con PASCAL (GTX 10XX, P40, etc.) También apoyamos las GPU AMD, las CPU Intel y las GPU, Google TPU e inferentia AWS.

Notas

Por diseño, Afrodita ocupa el 90% de la VRAM de su GPU. Si no está sirviendo a una LLM a escala, es posible que desee limitar la cantidad de memoria que aborda. Puede hacer esto en el ejemplo de API iniciando el servidor con la --gpu-memory-utilization 0.6 (0.6 significa 60%).
Puede ver la lista completa de comandos ejecutando aphrodite run --help .

Expresiones de gratitud

El motor de Afrodita no habría sido posible sin el trabajo fenomenal de otros proyectos de código abierto. Los créditos van a:

VLLM (Cacheflow)
Tensorrt-llm
XFORMERS
Atención
llama.cpp
Autoawq
Autogptq
Spreesellm
Exllamav2
Tabbyapi
Aqlm
Koboldai
Generación de texto webui
Megatron-lm
Rayo

Que contribuye

Todos son bienvenidos a contribuir. Puede admitir el proyecto abriendo solicitudes de extracción de nuevas funciones, correcciones o mejoras generales de UX.

Expandir

Información adicional

Versión v0.6.5
Tipo Código Fuente de IA
Fecha de actualización 2025-09-03
tamaño 9.47MB
Proviene de Github

Aplicaciones relacionadas

FNF JS Engine

2024-11-10
Wallpaper Engine The Wandering Earth 2 fondo de pantalla de película completa

2023-05-24
Motor de plantillas PHPnow

2013-10-31
Motor de vida de datos

2011-05-16
Motor XOOPS

2011-05-05
Motor de plantillas Xmark

2010-06-25

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo