Descargar LitServe - Descargar el código fuente LitServe

LitServe

Otro código fuente

v0.2.5

Descargar

Servir fácilmente a los modelos de IA Lightning rápido ⚡

Lightning-Fast Serving Motor para modelos de IA.
Fácil. Flexible. Escala empresarial.

Litserve es un motor de servicio flexible y fácil de usar para modelos de IA construidos en Fastapi. Aumenta FastAPI con características como lotes, transmisión y autoscalización de GPU elimina la necesidad de reconstruir un servidor FastAPI por modelo.

Litserve es al menos 2 veces más rápido que FastAPI simple debido al manejo de múltiples trabajadores múltiples específicos de AI.

 ✅ (2x)+ Servicio más rápido ✅ Fácil de usar ✅ LLMS, no LLMS y más
✅ Traiga su propio modelo ✅ pytorch/jax/tf/... ✅ construido en fastapi       
✅ GPU Autoscaling ✅ Batching, transmisión ✅ Aelelaboris o ⚡️ gestionado 
✅ Compuesto AI ✅ Integrar con VLLM y más

Inicio rápido • Ejemplos • Características • Rendimiento • Hosting • Documentos

Comienzo rápido

Instale Litserve a través de PIP (más opciones):

pip install litserve

Definir un servidor

Este ejemplo de juguete con 2 modelos (sistema compuesto de IA) muestra la flexibilidad de Litserve (ver ejemplos reales):

 # server.py
import litserve as ls

# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
    def setup ( self , device ):
        # setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
        self . model1 = lambda x : x ** 2
        self . model2 = lambda x : x ** 3

    def decode_request ( self , request ):
        # Convert the request payload to model input.
        return request [ "input" ] 

    def predict ( self , x ):
        # Easily build compound systems. Run inference and return the output.
        squared = self . model1 ( x )
        cubed = self . model2 ( x )
        output = squared + cubed
        return { "output" : output }

    def encode_response ( self , output ):
        # Convert the model output to a response payload.
        return { "output" : output } 

# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
    # scale with advanced features (batching, GPUs, etc...)
    server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
    server . run ( port = 8000 )

Ahora ejecute el servidor a través de la línea de comandos

python server.py

Prueba el servidor

Ejecute el cliente de prueba generado automáticamente:

python client.py

O use este comando terminal:

curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} '

LLM Siring

Litserve no es solo para LLM como VLLM o Ollama; Sirve a cualquier modelo de IA con control total sobre las partes internas (aprenda más).
Para facilitar el servicio LLM, integre VLLM con Litserve o use LitGPT (construido en Litserve).

 litgpt serve microsoft/phi-2

Resumen

Litapi le permite construir fácilmente sistemas de IA complejos con uno o más modelos (DOC).
Use el método de configuración para tareas únicas como modelos de conexión, DBS y datos de carga (DOC).
Litserver maneja optimizaciones como lotes, autoscalización de GPU, transmisión, etc. (documentos).
Aelel alojamiento en sus propias máquinas o use Lightning Studios para una implementación totalmente administrada (aprenda más).

Aprenda a hacer este servidor 200x más rápido.

Ejemplos destacados

Use Litserve para implementar cualquier modelo o servicio de IA: (compuesto ai, gen ai, ml clásico, incrustaciones, LLMS, visión, audio, etc.)

Litserve_overview.mp4

Ejemplos

 Modelo de juguete: hola mundo
LLMS: Llama 3.2, LLM Proxy Server, Agente con uso de herramientas
RAG: VLLM RAG (LLAMA 3.2), RAG API (llameAindex)
PNL: abrazando la cara, Bert, el texto que incrusta la API
Multimodal: OpenAi Clip, MinicPM, Phi-3.5 Vision Instrucc, QWEN2-VL, Pixtral
Audio: Whisper, AudioCraft, Stableaudio, Cancelación de ruido (DeepFilternet)
Visión: Difusión estable 2, Auraflow, Flux, Image Super Resolution (Aura SR),
                Extracción de fondo, Difusión estable de control (Controlnet)
Discurso: voz de texto (XTTS V2), Parler-TTS
ML clásico: bosque aleatorio, xgboost
Varios: API de conversión de medios (FFMPEG), Pytorch + TensorFlow en una API

Explorar más de 100 plantillas construidas por la comunidad

Características

Características de vanguardia:

✅ (2x)+ más rápido que Fastapi simple
✅ Trae tu propio modelo
✅ Construir sistemas compuestos (1+ modelos)
✅ GPU Autoscaling
✅ Batching
✅ Transmisión
✅ Autoscalización de trabajadores
✅ Auto-anfitrión en tus máquinas
✅ Host completamente administrado en Lightning AI
✅ Sirva todos los modelos: (LLMS, Visión, etc.)
✅ Escala a cero (sin servidor)
✅ Admite Pytorch, Jax, TF, etc ...
✅ Cumplante de Openapi
✅ Abrir compatibilidad de IA
✅ Autenticación
✅ Dockerización

Más de 10 características ...

Nota: Priorizamos las características escalables de nivel empresarial sobre el bombo publicitario.

Actuación

Litserve está diseñado para cargas de trabajo de IA. El manejo especializado de múltiples trabajadores ofrece una aceleración mínima de 2x sobre Fastapi .

Las características adicionales como el lote y el autoscalaje de GPU pueden generar el rendimiento mucho más allá de 2x, escenionando de manera eficiente para manejar solicitudes más simultáneas que Fastapi y Torchserve.

Reproducir los puntos de referencia completos aquí (más alto es mejor).

Estos resultados son para tareas ML de clasificación de imagen y texto. Las relaciones de rendimiento se mantienen para otras tareas de ML (incrustación, servicio LLM, audio, segmentación, detección de objetos, resumen, etc.).

Nota en LLM Serving: Para servir LLM de alto rendimiento (como Ollama/VLLM), integre VLLM con Litserve, use LitGPT o cree su servidor personalizado tipo VLLM con Litserve. Se necesitan optimizaciones como KV-Caching, que se pueden hacer con Litserve, para maximizar el rendimiento de LLM.

Opciones de alojamiento

Litserve se puede alojar independientemente en sus propias máquinas o completamente administrados a través de Lightning Studios.

El auto-anfitrión es ideal para hackers, estudiantes y desarrolladores de bricolaje, mientras que el alojamiento totalmente administrado es ideal para desarrolladores empresariales que necesitan autoscalización, seguridad, gestión de liberación y observabilidad de 99.995%.

Característica	Autogestionado	Totalmente administrado en estudios
Despliegue	✅ Hágalo usted mismo despliegue	✅ Implementación de una nube de un botón
Equilibrio de carga		✅
Autoscalado		✅
Escala a cero		✅
Inferencia múltiple		✅
Autenticación		✅
VPC propio		✅
AWS, GCP		✅
Usa tu propia nube.		✅

Comunidad

Litserve es un proyecto comunitario que acepta contribuciones: hagamos que el motor de inferencia de IA más avanzado del mundo.

Obtenga ayuda en Discord
? Licencia: Apache 2.0

Expandir

Información adicional

Versión v0.2.5
Tipo Otro código fuente
Fecha de actualización 2025-02-27
tamaño 126.28KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Otro código fuente

1.0.0

Información relacionada Todo