Download de LitServe - Download do código -fonte LitServe

LitServe

Outro código-fonte

v0.2.5

Baixar

Sirva facilmente os modelos de IA Lightning Fast ⚡

Motor de servir de raios para os modelos de IA.
Fácil. Flexível. Enterprise-Scale.

LitServe é um mecanismo de servir flexível e fácil de usar para modelos de IA construídos no FASTAPI. Ele aumenta o FASTAPI com recursos como lotes, streaming e GPU automaticamente, eliminam a necessidade de reconstruir um servidor FASTAPI por modelo.

LitServe é pelo menos 2x mais rápido que o FASTAPI simples devido ao manuseio de vários trabalhadores específico da IA.

 ✅ (2x)+ porção mais rápida ✅ fácil de usar ✅ llms, não llms e mais
✅ Traga seu próprio modelo ✅ pytorch/Jax/tf/... ✅ construído no FASTAPI       
✅ GPU Automoscaling ✅ Lote, streaming ✅ Auto-hospedeiro ou ⚡️ gerenciado 
✅ composto ai ✅ integrar com vllm e mais

Iniciar rápido • Exemplos • Recursos • Desempenho • Hospedagem • Doces

Início rápido

Instale o LitServe via PIP (mais opções):

pip install litserve

Definir um servidor

Este exemplo de brinquedo com 2 modelos (sistema composto de IA) mostra a flexibilidade de LitServe (consulte exemplos reais):

 # server.py
import litserve as ls

# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
    def setup ( self , device ):
        # setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
        self . model1 = lambda x : x ** 2
        self . model2 = lambda x : x ** 3

    def decode_request ( self , request ):
        # Convert the request payload to model input.
        return request [ "input" ] 

    def predict ( self , x ):
        # Easily build compound systems. Run inference and return the output.
        squared = self . model1 ( x )
        cubed = self . model2 ( x )
        output = squared + cubed
        return { "output" : output }

    def encode_response ( self , output ):
        # Convert the model output to a response payload.
        return { "output" : output } 

# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
    # scale with advanced features (batching, GPUs, etc...)
    server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
    server . run ( port = 8000 )

Agora execute o servidor através da linha de comando

python server.py

Teste o servidor

Execute o cliente de teste gerado automaticamente:

python client.py

Ou use este comando do terminal:

curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} '

LLM Servindo

LitServe não é apenas para LLMs como Vllm ou Ollama; Serve qualquer modelo de IA com controle total sobre os internos (Saiba mais).
Para o LLM fácil, integrar Vllm com LitServe ou use LitGPT (construído no LitServe).

 litgpt serve microsoft/phi-2

Resumo

O Litapi permite criar facilmente sistemas de IA complexos com um ou mais modelos (documentos).
Use o método de configuração para tarefas únicas, como conectar modelos, dbs e dados de carregamento (documentos).
O LitServer lida com otimizações como lotes, GPU automaticamente, streaming, etc ... (documentos).
Host auto em suas próprias máquinas ou use Lightning Studios para uma implantação totalmente gerenciada (Saiba mais).

Aprenda a tornar este servidor 200X mais rápido.

Exemplos em destaque

Use LitServe para implantar qualquer modelo ou serviço de IA: (composto ai, gen ai, clássico ML, incorporação, LLMS, visão, áudio, etc ...)

LitServe_overview.mp4

Exemplos

 Modelo de brinquedo: Olá, mundo
LLMS: LLAMA 3.2, LLM servidor proxy, agente com uso de ferramentas
Rag: Vllm Rag (llama 3.2), API de RAG (Llamaindex)
NLP: Abraçando o rosto, Bert, API de incorporação de texto
Multimodal: clipe OpenAI, Minicpm, Phi-3.5 Vision Instruct, QWEN2-VL, PIXTRAL
Áudio: sussurro, audiocraft, stableaudio, cancelamento de ruído (DeepFilternet)
Visão: Difusão estável 2, Auraflow, Fluxo, Super Resolução da Imagem (Aura SR),
                Remoção de fundo, controle de difusão estável (ControlNet)
Discurso: fala de texto (XTTS v2), Parler-TTS
ML clássico: floresta aleatória, xgboost
Diversos: API de conversão de mídia (FFMPEG), pytorch + tensorflow em uma API

Navegue com mais de 100 modelos construídos na comunidade

Características

Recursos de última geração:

✅ (2x)+ mais rápido que o FASTAPI simples
✅ Traga seu próprio modelo
✅ Construa sistemas compostos (mais de 1 modelos)
✅ AUTOSCALE DE GPU
✅ Lote
✅ Streaming
✅ Automoscal de trabalhador
✅ Auto-hospedeiro em suas máquinas
✅ Host totalmente gerenciado em raios AI
✅ Sirva todos os modelos: (LLMS, Visão, etc.)
✅ Escala para zero (sem servidor)
✅ suporta Pytorch, Jax, TF, etc ...
✅ Compatível em OpenAPI
✅ Compatibilidade de IA aberta
✅ Autenticação
✅ Dockerização

Mais de 10 recursos ...

NOTA: Priorizamos os recursos escaláveis no nível da empresa sobre o hype.

Desempenho

LitServe foi projetado para cargas de trabalho de IA. O manuseio especializado em vários trabalhadores oferece uma aceleração mínima de 2x sobre o FASTAPI .

Recursos adicionais, como lotes e autoscalões da GPU, podem gerar desempenho muito além de 2x, dimensionando com eficiência para lidar com solicitações mais simultâneas do que o FASTAPI e o TorchServe.

Reproduzir os benchmarks completos aqui (mais alto é melhor).

Esses resultados são para tarefas ML de classificação de imagem e texto. As relações de desempenho mantêm para outras tarefas de ML (INCEDDING, LLM SERVIÇÃO, AUDIO, SEGINAÇÃO, SETECÇÃO DE OBJETOS, SUMARIZAÇÃO ETC ...).

Nota na porção LLM: Para servir LLM de alto desempenho (como Ollama/VLLM), integre o VLLM com o LITSERVE, use litgpt ou construa seu servidor personalizado do tipo VLLM com LitServe. Otimizações como KV-Caching, que podem ser feitas com LitServe, são necessárias para maximizar o desempenho do LLM.

Opções de hospedagem

O LitServe pode ser hospedado de forma independente em suas próprias máquinas ou totalmente gerenciada por meio de Lightning Studios.

A auto-hospedagem é ideal para hackers, estudantes e desenvolvedores de bricolage, enquanto a hospedagem totalmente gerenciada é ideal para desenvolvedores corporativos que precisam de fácil autocaling, segurança, gerenciamento de liberações e 99.995% de tempo de atividade e observabilidade.

Recurso	Auto -gerenciado	Totalmente gerenciado em estúdios
Implantação	✅ Faça você mesmo implantação	✅ Implante de nuvem de um botão
Balanceamento de carga		✅
Autocaling		✅
Escala para zero		✅
Inferência de várias máquinas		✅
Autenticação		✅
VPC próprio		✅
AWS, GCP		✅
Use sua própria nuvem cometidos		✅

Comunidade

LitServe é um projeto comunitário que aceita contribuições - vamos tornar o mecanismo de inferência de IA mais avançado do mundo.

Obtenha ajuda na discórdia
? Licença: Apache 2.0

Expandir

Informações adicionais

Versão v0.2.5
Tipo Outro código-fonte
Data da Última Atualização 2025-02-27
tamanho 126.28KB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos