Moteur de service rapide pour les modèles d'IA.
Facile. Flexible. À l'échelle de l'entreprise.
LitServe est un moteur de service flexible facile à utiliser pour les modèles AI construits sur FastAPI. Il augmente FastAPI avec des fonctionnalités telles que le lot, le streaming et le générique GPU éliminent la nécessité de reconstruire un serveur FastAPI par modèle.
LitServe est au moins 2x plus rapide que le Fastapi ordinaire en raison de la manipulation multi-travailleurs spécifiques à l'IA.
✅ (2x) + portion plus rapide ✅ Facile à utiliser ✅ LLMS, non LLM et plus ✅ Apportez votre propre modèle ✅ Pytorch / jax / tf / ... ✅ construit sur Fastapi ✅ GPU AUTOSCALE ✅ composé AI ✅ INTRÉSIRATION AU VllM et plus
Installez LitServe via PIP (plus d'options):
pip install litserveCet exemple de jouet avec 2 modèles (système composé AI) montre la flexibilité de LitServe (voir de vrais exemples):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )Exécutez maintenant le serveur via la ligne de commande
python server.pyExécutez le client de test généré automatiquement:
python client.py Ou utilisez cette commande de terminal:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} ' LitServe n'est pas seulement pour les LLM comme Vllm ou Olllama; Il dessert n'importe quel modèle d'IA avec un contrôle total sur les internes (en savoir plus).
Pour une service Easy LLM, intégrer VLLM avec LitServe ou utiliser Litgpt (construit sur LitServe).
litgpt serve microsoft/phi-2
Apprenez à rendre ce serveur 200x plus rapidement.
Utilisez LitServe pour déployer n'importe quel modèle ou service AI: (composé AI, Gen AI, ML classique, intégres, LLMS, vision, audio, etc ...)
Modèle de jouets: Hello World
LLMS: LLAMA 3.2, serveur proxy LLM, agent avec usage d'outils
Rag: Vllm Rag (Llama 3.2), Rag API (Llamaindex)
NLP: Face étreinte, bert, API d'intégration de texte
Multimodal: Openai Clip, MINICPM, PHI-3.5 Vision Instruct, Qwen2-vl, Pixtral
Audio: chuchotement, audiocraft, stableaudio, annulation de bruit (DeepFilternet)
Vision: diffusion stable 2, auraflow, flux, super résolution de l'image (Aura SR),
Retrait d'arrière-plan, diffusion stable de contrôle (ControlNet)
Discours: Text-dispection (XTTS V2), Parler-Tts
Classical ML: Random Forest, xgboost
Divers: API de conversion des médias (FFMPEG), Pytorch + Tensorflow dans une API
Parcourir 100+ modèles construits par la communauté
Caractéristiques de pointe:
✅ (2x) + plus rapide que Fastapi ordinaire
✅ Apportez votre propre modèle
✅ Créer des systèmes composés (1+ modèles)
✅ GPU AUTOSCALE
✅ Lot
✅ Streaming
✅ Autoscting des travailleurs
✅ Auto-hôte sur vos machines
✅ Hôte entièrement géré sur la foudre AI
✅ Servir tous les modèles: (LLMS, vision, etc.)
✅ Échelle à zéro (sans serveur)
✅ prend en charge Pytorch, Jax, TF, etc ...
✅ OpenAPI conforme
✅ Open compatibilité AI
✅ Authentification
✅ Docking
10+ fonctionnalités ...
Remarque: Nous priorisons les fonctionnalités évolutives et au niveau de l'entreprise via le battage médiatique.
LitServe est conçu pour les charges de travail de l'IA. La manipulation multi-travailleurs spécialisée offre une accélération de 2x minimale sur Fastapi .
Des fonctionnalités supplémentaires telles que le lot et la mise en œuvre de GPU peuvent entraîner des performances bien au-delà de 2x, la mise à l'échelle efficace pour gérer des demandes plus simultanées que Fastapi et Torchserve.
Reproduisez les références complètes ici (plus haut, c'est mieux).
Ces résultats concernent les tâches ML de classification de l'image et du texte. Les relations de performance maintiennent pour d'autres tâches ML (intégration, service LLM, audio, segmentation, détection d'objets, résumé, etc.).
Remarque sur LLM Serving: pour la servitude LLM haute performance (comme Olllama / VLLM), intégrez VLLM avec LitServe, utilisez LITGPT ou créez votre serveur de type Vllm personnalisé avec LitServe. Des optimisations comme le cache-cache KV, qui peuvent être faites avec LitServe, sont nécessaires pour maximiser les performances LLM.
LitServe peut être hébergé indépendamment sur vos propres machines ou entièrement géré via Lightning Studios.
L'auto-hébergement est idéal pour les pirates, les étudiants et les développeurs de bricolage, tandis que l'hébergement entièrement géré est idéal pour les développeurs d'entreprises ayant besoin d'une autoscalimentation facile, de la sécurité, de la gestion des versions et de la disponibilité et de l'observabilité de 99,995%.
| Fonctionnalité | Autonome | Entièrement géré sur les studios |
|---|---|---|
| Déploiement | ✅ Faites-le vous-même déploiement | ✅ Département cloud à un bouton |
| Équilibrage de charge | ✅ | |
| Automatiquement | ✅ | |
| Échelle à zéro | ✅ | |
| Inférence multi-machine | ✅ | |
| Authentification | ✅ | |
| Propre VPC | ✅ | |
| AWS, GCP | ✅ | |
| Utilisez vos propres engagements de cloud | ✅ |
LitServe est un projet communautaire acceptant les contributions - faisons le moteur d'inférence de l'IA le plus avancé au monde.
Obtenez de l'aide sur Discord
? Licence: Apache 2.0