Téléchargement LitServe - Téléchargement du code source LitServe

LitServe

Autre code source

v0.2.5

Télécharger

Servir facilement les modèles AI Lightning Fast ⚡

Moteur de service rapide pour les modèles d'IA.
Facile. Flexible. À l'échelle de l'entreprise.

LitServe est un moteur de service flexible facile à utiliser pour les modèles AI construits sur FastAPI. Il augmente FastAPI avec des fonctionnalités telles que le lot, le streaming et le générique GPU éliminent la nécessité de reconstruire un serveur FastAPI par modèle.

LitServe est au moins 2x plus rapide que le Fastapi ordinaire en raison de la manipulation multi-travailleurs spécifiques à l'IA.

 ✅ (2x) + portion plus rapide ✅ Facile à utiliser ✅ LLMS, non LLM et plus
✅ Apportez votre propre modèle ✅ Pytorch / jax / tf / ... ✅ construit sur Fastapi       
✅ GPU AUTOSCALE 
✅ composé AI ✅ INTRÉSIRATION AU VllM et plus

Démarrage rapide • Exemples • Caractéristiques • Performances • Hébergement • Docs

Démarrage rapide

Installez LitServe via PIP (plus d'options):

pip install litserve

Définir un serveur

Cet exemple de jouet avec 2 modèles (système composé AI) montre la flexibilité de LitServe (voir de vrais exemples):

 # server.py
import litserve as ls

# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
    def setup ( self , device ):
        # setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
        self . model1 = lambda x : x ** 2
        self . model2 = lambda x : x ** 3

    def decode_request ( self , request ):
        # Convert the request payload to model input.
        return request [ "input" ] 

    def predict ( self , x ):
        # Easily build compound systems. Run inference and return the output.
        squared = self . model1 ( x )
        cubed = self . model2 ( x )
        output = squared + cubed
        return { "output" : output }

    def encode_response ( self , output ):
        # Convert the model output to a response payload.
        return { "output" : output } 

# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
    # scale with advanced features (batching, GPUs, etc...)
    server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
    server . run ( port = 8000 )

Exécutez maintenant le serveur via la ligne de commande

python server.py

Tester le serveur

Exécutez le client de test généré automatiquement:

python client.py

Ou utilisez cette commande de terminal:

curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} '

LLM Service

LitServe n'est pas seulement pour les LLM comme Vllm ou Olllama; Il dessert n'importe quel modèle d'IA avec un contrôle total sur les internes (en savoir plus).
Pour une service Easy LLM, intégrer VLLM avec LitServe ou utiliser Litgpt (construit sur LitServe).

 litgpt serve microsoft/phi-2

Résumé

Litapi vous permet de construire facilement des systèmes d'IA complexes avec un ou plusieurs modèles (DOC).
Utilisez la méthode de configuration pour les tâches ponctuelles comme les modèles de connexion, DBS et les données de chargement (DOC).
LitServer gère les optimisations comme le lot, l'automate GPU, le streaming, etc ... (Docs).
Auto-héberge sur vos propres machines ou utilisez des studios Lightning pour un déploiement entièrement géré (en savoir plus).

Apprenez à rendre ce serveur 200x plus rapidement.

Exemples en vedette

Utilisez LitServe pour déployer n'importe quel modèle ou service AI: (composé AI, Gen AI, ML classique, intégres, LLMS, vision, audio, etc ...)

LitServe_overview.mp4

Exemples

 Modèle de jouets: Hello World
LLMS: LLAMA 3.2, serveur proxy LLM, agent avec usage d'outils
Rag: Vllm Rag (Llama 3.2), Rag API (Llamaindex)
NLP: Face étreinte, bert, API d'intégration de texte
Multimodal: Openai Clip, MINICPM, PHI-3.5 Vision Instruct, Qwen2-vl, Pixtral
Audio: chuchotement, audiocraft, stableaudio, annulation de bruit (DeepFilternet)
Vision: diffusion stable 2, auraflow, flux, super résolution de l'image (Aura SR),
                Retrait d'arrière-plan, diffusion stable de contrôle (ControlNet)
Discours: Text-dispection (XTTS V2), Parler-Tts
Classical ML: Random Forest, xgboost
Divers: API de conversion des médias (FFMPEG), Pytorch + Tensorflow dans une API

Parcourir 100+ modèles construits par la communauté

Caractéristiques

Caractéristiques de pointe:

✅ (2x) + plus rapide que Fastapi ordinaire
✅ Apportez votre propre modèle
✅ Créer des systèmes composés (1+ modèles)
✅ GPU AUTOSCALE
✅ Lot
✅ Streaming
✅ Autoscting des travailleurs
✅ Auto-hôte sur vos machines
✅ Hôte entièrement géré sur la foudre AI
✅ Servir tous les modèles: (LLMS, vision, etc.)
✅ Échelle à zéro (sans serveur)
✅ prend en charge Pytorch, Jax, TF, etc ...
✅ OpenAPI conforme
✅ Open compatibilité AI
✅ Authentification
✅ Docking

10+ fonctionnalités ...

Remarque: Nous priorisons les fonctionnalités évolutives et au niveau de l'entreprise via le battage médiatique.

Performance

LitServe est conçu pour les charges de travail de l'IA. La manipulation multi-travailleurs spécialisée offre une accélération de 2x minimale sur Fastapi .

Des fonctionnalités supplémentaires telles que le lot et la mise en œuvre de GPU peuvent entraîner des performances bien au-delà de 2x, la mise à l'échelle efficace pour gérer des demandes plus simultanées que Fastapi et Torchserve.

Reproduisez les références complètes ici (plus haut, c'est mieux).

Ces résultats concernent les tâches ML de classification de l'image et du texte. Les relations de performance maintiennent pour d'autres tâches ML (intégration, service LLM, audio, segmentation, détection d'objets, résumé, etc.).

Remarque sur LLM Serving: pour la servitude LLM haute performance (comme Olllama / VLLM), intégrez VLLM avec LitServe, utilisez LITGPT ou créez votre serveur de type Vllm personnalisé avec LitServe. Des optimisations comme le cache-cache KV, qui peuvent être faites avec LitServe, sont nécessaires pour maximiser les performances LLM.

Options d'hébergement

LitServe peut être hébergé indépendamment sur vos propres machines ou entièrement géré via Lightning Studios.

L'auto-hébergement est idéal pour les pirates, les étudiants et les développeurs de bricolage, tandis que l'hébergement entièrement géré est idéal pour les développeurs d'entreprises ayant besoin d'une autoscalimentation facile, de la sécurité, de la gestion des versions et de la disponibilité et de l'observabilité de 99,995%.

Fonctionnalité	Autonome	Entièrement géré sur les studios
Déploiement	✅ Faites-le vous-même déploiement	✅ Département cloud à un bouton
Équilibrage de charge		✅
Automatiquement		✅
Échelle à zéro		✅
Inférence multi-machine		✅
Authentification		✅
Propre VPC		✅
AWS, GCP		✅
Utilisez vos propres engagements de cloud		✅

Communauté

LitServe est un projet communautaire acceptant les contributions - faisons le moteur d'inférence de l'IA le plus avancé au monde.

Obtenez de l'aide sur Discord
? Licence: Apache 2.0

Développer

Informations supplémentaires

Version v0.2.5
Type Autre code source
Date de mise à jour 2025-02-27
taille 126.28KB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0

Actualités connexes Tout