Lightning-Fast Serving Motor para modelos de IA.
Fácil. Flexible. Escala empresarial.
Litserve es un motor de servicio flexible y fácil de usar para modelos de IA construidos en Fastapi. Aumenta FastAPI con características como lotes, transmisión y autoscalización de GPU elimina la necesidad de reconstruir un servidor FastAPI por modelo.
Litserve es al menos 2 veces más rápido que FastAPI simple debido al manejo de múltiples trabajadores múltiples específicos de AI.
✅ (2x)+ Servicio más rápido ✅ Fácil de usar ✅ LLMS, no LLMS y más ✅ Traiga su propio modelo ✅ pytorch/jax/tf/... ✅ construido en fastapi ✅ GPU Autoscaling ✅ Batching, transmisión ✅ Aelelaboris o ⚡️ gestionado ✅ Compuesto AI ✅ Integrar con VLLM y más
Instale Litserve a través de PIP (más opciones):
pip install litserveEste ejemplo de juguete con 2 modelos (sistema compuesto de IA) muestra la flexibilidad de Litserve (ver ejemplos reales):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )Ahora ejecute el servidor a través de la línea de comandos
python server.pyEjecute el cliente de prueba generado automáticamente:
python client.py O use este comando terminal:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} ' Litserve no es solo para LLM como VLLM o Ollama; Sirve a cualquier modelo de IA con control total sobre las partes internas (aprenda más).
Para facilitar el servicio LLM, integre VLLM con Litserve o use LitGPT (construido en Litserve).
litgpt serve microsoft/phi-2
Aprenda a hacer este servidor 200x más rápido.
Use Litserve para implementar cualquier modelo o servicio de IA: (compuesto ai, gen ai, ml clásico, incrustaciones, LLMS, visión, audio, etc.)
Modelo de juguete: hola mundo
LLMS: Llama 3.2, LLM Proxy Server, Agente con uso de herramientas
RAG: VLLM RAG (LLAMA 3.2), RAG API (llameAindex)
PNL: abrazando la cara, Bert, el texto que incrusta la API
Multimodal: OpenAi Clip, MinicPM, Phi-3.5 Vision Instrucc, QWEN2-VL, Pixtral
Audio: Whisper, AudioCraft, Stableaudio, Cancelación de ruido (DeepFilternet)
Visión: Difusión estable 2, Auraflow, Flux, Image Super Resolution (Aura SR),
Extracción de fondo, Difusión estable de control (Controlnet)
Discurso: voz de texto (XTTS V2), Parler-TTS
ML clásico: bosque aleatorio, xgboost
Varios: API de conversión de medios (FFMPEG), Pytorch + TensorFlow en una API
Explorar más de 100 plantillas construidas por la comunidad
Características de vanguardia:
✅ (2x)+ más rápido que Fastapi simple
✅ Trae tu propio modelo
✅ Construir sistemas compuestos (1+ modelos)
✅ GPU Autoscaling
✅ Batching
✅ Transmisión
✅ Autoscalización de trabajadores
✅ Auto-anfitrión en tus máquinas
✅ Host completamente administrado en Lightning AI
✅ Sirva todos los modelos: (LLMS, Visión, etc.)
✅ Escala a cero (sin servidor)
✅ Admite Pytorch, Jax, TF, etc ...
✅ Cumplante de Openapi
✅ Abrir compatibilidad de IA
✅ Autenticación
✅ Dockerización
Más de 10 características ...
Nota: Priorizamos las características escalables de nivel empresarial sobre el bombo publicitario.
Litserve está diseñado para cargas de trabajo de IA. El manejo especializado de múltiples trabajadores ofrece una aceleración mínima de 2x sobre Fastapi .
Las características adicionales como el lote y el autoscalaje de GPU pueden generar el rendimiento mucho más allá de 2x, escenionando de manera eficiente para manejar solicitudes más simultáneas que Fastapi y Torchserve.
Reproducir los puntos de referencia completos aquí (más alto es mejor).
Estos resultados son para tareas ML de clasificación de imagen y texto. Las relaciones de rendimiento se mantienen para otras tareas de ML (incrustación, servicio LLM, audio, segmentación, detección de objetos, resumen, etc.).
Nota en LLM Serving: Para servir LLM de alto rendimiento (como Ollama/VLLM), integre VLLM con Litserve, use LitGPT o cree su servidor personalizado tipo VLLM con Litserve. Se necesitan optimizaciones como KV-Caching, que se pueden hacer con Litserve, para maximizar el rendimiento de LLM.
Litserve se puede alojar independientemente en sus propias máquinas o completamente administrados a través de Lightning Studios.
El auto-anfitrión es ideal para hackers, estudiantes y desarrolladores de bricolaje, mientras que el alojamiento totalmente administrado es ideal para desarrolladores empresariales que necesitan autoscalización, seguridad, gestión de liberación y observabilidad de 99.995%.
| Característica | Autogestionado | Totalmente administrado en estudios |
|---|---|---|
| Despliegue | ✅ Hágalo usted mismo despliegue | ✅ Implementación de una nube de un botón |
| Equilibrio de carga | ✅ | |
| Autoscalado | ✅ | |
| Escala a cero | ✅ | |
| Inferencia múltiple | ✅ | |
| Autenticación | ✅ | |
| VPC propio | ✅ | |
| AWS, GCP | ✅ | |
| Usa tu propia nube. | ✅ |
Litserve es un proyecto comunitario que acepta contribuciones: hagamos que el motor de inferencia de IA más avanzado del mundo.
Obtenga ayuda en Discord
? Licencia: Apache 2.0