Motor de servir de raios para os modelos de IA.
Fácil. Flexível. Enterprise-Scale.
LitServe é um mecanismo de servir flexível e fácil de usar para modelos de IA construídos no FASTAPI. Ele aumenta o FASTAPI com recursos como lotes, streaming e GPU automaticamente, eliminam a necessidade de reconstruir um servidor FASTAPI por modelo.
LitServe é pelo menos 2x mais rápido que o FASTAPI simples devido ao manuseio de vários trabalhadores específico da IA.
✅ (2x)+ porção mais rápida ✅ fácil de usar ✅ llms, não llms e mais ✅ Traga seu próprio modelo ✅ pytorch/Jax/tf/... ✅ construído no FASTAPI ✅ GPU Automoscaling ✅ Lote, streaming ✅ Auto-hospedeiro ou ⚡️ gerenciado ✅ composto ai ✅ integrar com vllm e mais
Instale o LitServe via PIP (mais opções):
pip install litserveEste exemplo de brinquedo com 2 modelos (sistema composto de IA) mostra a flexibilidade de LitServe (consulte exemplos reais):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )Agora execute o servidor através da linha de comando
python server.pyExecute o cliente de teste gerado automaticamente:
python client.py Ou use este comando do terminal:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} ' LitServe não é apenas para LLMs como Vllm ou Ollama; Serve qualquer modelo de IA com controle total sobre os internos (Saiba mais).
Para o LLM fácil, integrar Vllm com LitServe ou use LitGPT (construído no LitServe).
litgpt serve microsoft/phi-2
Aprenda a tornar este servidor 200X mais rápido.
Use LitServe para implantar qualquer modelo ou serviço de IA: (composto ai, gen ai, clássico ML, incorporação, LLMS, visão, áudio, etc ...)
Modelo de brinquedo: Olá, mundo
LLMS: LLAMA 3.2, LLM servidor proxy, agente com uso de ferramentas
Rag: Vllm Rag (llama 3.2), API de RAG (Llamaindex)
NLP: Abraçando o rosto, Bert, API de incorporação de texto
Multimodal: clipe OpenAI, Minicpm, Phi-3.5 Vision Instruct, QWEN2-VL, PIXTRAL
Áudio: sussurro, audiocraft, stableaudio, cancelamento de ruído (DeepFilternet)
Visão: Difusão estável 2, Auraflow, Fluxo, Super Resolução da Imagem (Aura SR),
Remoção de fundo, controle de difusão estável (ControlNet)
Discurso: fala de texto (XTTS v2), Parler-TTS
ML clássico: floresta aleatória, xgboost
Diversos: API de conversão de mídia (FFMPEG), pytorch + tensorflow em uma API
Navegue com mais de 100 modelos construídos na comunidade
Recursos de última geração:
✅ (2x)+ mais rápido que o FASTAPI simples
✅ Traga seu próprio modelo
✅ Construa sistemas compostos (mais de 1 modelos)
✅ AUTOSCALE DE GPU
✅ Lote
✅ Streaming
✅ Automoscal de trabalhador
✅ Auto-hospedeiro em suas máquinas
✅ Host totalmente gerenciado em raios AI
✅ Sirva todos os modelos: (LLMS, Visão, etc.)
✅ Escala para zero (sem servidor)
✅ suporta Pytorch, Jax, TF, etc ...
✅ Compatível em OpenAPI
✅ Compatibilidade de IA aberta
✅ Autenticação
✅ Dockerização
Mais de 10 recursos ...
NOTA: Priorizamos os recursos escaláveis no nível da empresa sobre o hype.
LitServe foi projetado para cargas de trabalho de IA. O manuseio especializado em vários trabalhadores oferece uma aceleração mínima de 2x sobre o FASTAPI .
Recursos adicionais, como lotes e autoscalões da GPU, podem gerar desempenho muito além de 2x, dimensionando com eficiência para lidar com solicitações mais simultâneas do que o FASTAPI e o TorchServe.
Reproduzir os benchmarks completos aqui (mais alto é melhor).
Esses resultados são para tarefas ML de classificação de imagem e texto. As relações de desempenho mantêm para outras tarefas de ML (INCEDDING, LLM SERVIÇÃO, AUDIO, SEGINAÇÃO, SETECÇÃO DE OBJETOS, SUMARIZAÇÃO ETC ...).
Nota na porção LLM: Para servir LLM de alto desempenho (como Ollama/VLLM), integre o VLLM com o LITSERVE, use litgpt ou construa seu servidor personalizado do tipo VLLM com LitServe. Otimizações como KV-Caching, que podem ser feitas com LitServe, são necessárias para maximizar o desempenho do LLM.
O LitServe pode ser hospedado de forma independente em suas próprias máquinas ou totalmente gerenciada por meio de Lightning Studios.
A auto-hospedagem é ideal para hackers, estudantes e desenvolvedores de bricolage, enquanto a hospedagem totalmente gerenciada é ideal para desenvolvedores corporativos que precisam de fácil autocaling, segurança, gerenciamento de liberações e 99.995% de tempo de atividade e observabilidade.
| Recurso | Auto -gerenciado | Totalmente gerenciado em estúdios |
|---|---|---|
| Implantação | ✅ Faça você mesmo implantação | ✅ Implante de nuvem de um botão |
| Balanceamento de carga | ✅ | |
| Autocaling | ✅ | |
| Escala para zero | ✅ | |
| Inferência de várias máquinas | ✅ | |
| Autenticação | ✅ | |
| VPC próprio | ✅ | |
| AWS, GCP | ✅ | |
| Use sua própria nuvem cometidos | ✅ |
LitServe é um projeto comunitário que aceita contribuições - vamos tornar o mecanismo de inferência de IA mais avançado do mundo.
Obtenha ajuda na discórdia
? Licença: Apache 2.0