Lightning-Spast-Serviermotor für KI-Modelle.
Einfach. Flexibel. Unternehmenskala.
LitServe ist ein benutzerfreundlicher, flexibler Serviermotor für KI-Modelle, die auf Fastapi aufgebaut sind. Es erweitert Fastapi mit Funktionen wie Batching, Streaming und GPU -Autoscaling müssen die Notwendigkeit des Wiederaufbaus eines Fastapi -Servers pro Modell beseitigen.
LitServe ist mindestens 2x schneller als einfache Fastapi aufgrund der Umgang mit KI-spezifischer Multi-Arbeiter.
✅ (2x)+ schnelleres Servieren ✅ einfach zu bedienend ✅ llms, nicht llms und mehr ✅ Bringen Sie Ihr eigenes Modell mit ✅ Pytorch/jax/tf/... ✅ auf Fastapi aufgebaut ✅ GPU Autoscaling ✅ Batching, Streaming ✅ SelbstHost oder ⚡️ verwaltet ✅ Verbindungs ai ✅ Integrieren in VllM und mehr
Installieren Sie LitServe über PIP (weitere Optionen):
pip install litserveDieses Spielzeugbeispiel mit 2 Modellen (AI -Verbindungssystem) zeigt die Flexibilität von Litserve (siehe reale Beispiele):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )Führen Sie nun den Server über die Befehlszeile aus
python server.pyFühren Sie den automatisch generierten Test Client aus:
python client.py Oder verwenden Sie diesen Terminalbefehl:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} ' LitServe ist nicht nur für LLMs wie Vllm oder Ollama; Es dient jedem KI -Modell mit vollständigen Kontrolle über Interna (erfahren Sie mehr).
Integrieren Sie VllM für eine einfache LLM -Portion in LitServe oder verwenden Sie LITGPT (gebaut auf LitServe).
litgpt serve microsoft/phi-2
Erfahren Sie, wie Sie diesen Server 200x schneller machen.
Verwenden Sie LitServe, um ein Modell oder einen KI -Dienst bereitzustellen: (Compound AI, Gen AI, Classic ML, Embettdings, LLMs, Vision, Audio usw.).
Spielzeugmodell: Hallo Welt
LLMs: LLAMA 3.2, LLM Proxy Server, Agent mit Toolsutz
RAG: VllM RAG (Lama 3.2), Rag API (llamaindex)
NLP: Umarmung, Bert, Textbetting -API
Multimodal: OpenAI-Clip, Minicpm, Phi-3,5 Vision, Qwen2-VL, Pixtral
Audio: Whisper, Audiocraft, StableAudio, Geräuschunterdrückung (DeepFilternet)
Vision: Stabile Diffusion 2, Auraflow, Fluss, Bild Superauflösung (Aura SR),
Hintergrundentfernung, Kontrollstabile Diffusion (ControlNet)
Sprache: Textrede (XTTS V2), Parler-TTS
Klassischer ML: Zufallswald, xgboost
Miscellaneous: Media Conversion API (FFMPEG), Pytorch + Tensorflow in einer API
Durchsuchen Sie mehr als 100 von der Community gebaute Vorlagen
Hochmoderne Funktionen:
✅ (2x)+ schneller als einfache Fastapi
✅ Bringen Sie Ihr eigenes Modell mit
✅ Verbundsysteme bauen (1+ Modelle)
✅ GPU -Autoscaling
✅ Batching
✅ Streaming
✅ Arbeiterautoscaling
✅ SelbstHost auf Ihren Maschinen
✅ Host GOERT VOLLSTÄNDIG VON LELLNING AI
✅ Alle Modelle dienen: (LLMs, Vision usw.)
✅ Skalierung auf Null (serverlos)
✅ Unterstützt Pytorch, Jax, TF usw.
✅ OpenAPI -konform
✅ Öffnen Sie die KI -Kompatibilität
✅ Authentifizierung
✅ Dockerisierung
10+ Funktionen ...
Hinweis: Wir priorisieren skalierbare Funktionen auf Unternehmensebene vor Hype.
LitServe ist für KI -Arbeitsbelastungen ausgelegt. Die minimale 2-fache Beschleunigung über Fastapi liefert eine spezielle Multi-Arbeiter-Handhabung.
Zusätzliche Merkmale wie Batching und GPU -Autoscaling können die Leistung weit über 2x übertragen und effizient skalieren, um gleichzeitigere Anfragen zu bearbeiten als Fastapi und Torchserve.
Reproduzieren Sie die vollen Benchmarks hier (höher ist besser).
Diese Ergebnisse beziehen sich auf ML -Aufgaben der Bild- und Textklassifizierung. Die Leistungsbeziehungen halten für andere ML -Aufgaben (Einbettung, LLM -Servieren, Audio, Segmentierung, Objekterkennung, Zusammenfassung usw.).
Hinweis zum LLM-Servieren: Integrieren Sie VLLM in LLM-Servieren (wie OLLAMA/VLLM) in LLM (wie OLLAMA/VLLM) in LitServe, verwenden Sie LITGPT oder erstellen Sie Ihren benutzerdefinierten VLLM-ähnlichen Server mit LitServe. Optimierungen wie KV-Caching, die mit LitServe durchgeführt werden können, sind erforderlich, um die LLM-Leistung zu maximieren.
LitServe kann unabhängig auf Ihren eigenen Maschinen gehostet werden oder über Lightning Studios vollständig verwaltet werden.
Das Selbsthosting ist ideal für Hacker, Studenten und DIY-Entwickler, während das voll verwaltete Hosting ideal für Unternehmensentwickler ist, die einfache Autoscaling, Sicherheit, Release-Management und 99,995% Verfügbarkeit und Beobachtbarkeit benötigen.
| Besonderheit | Sich selbst verwaltet | Voll verwaltet in Studios |
|---|---|---|
| Einsatz | ✅ Machen Sie es selbst Bereitstellung | ✅ Ein-Knopf-Cloud-Bereitstellung |
| Lastausgleich | ✅ | |
| Autoscaling | ✅ | |
| Skalierung auf Null | ✅ | |
| Multi-Machine-Inferenz | ✅ | |
| Authentifizierung | ✅ | |
| Eigener VPC | ✅ | |
| AWS, GCP | ✅ | |
| Verwenden Sie Ihre eigenen Cloud -Commits | ✅ |
LitServe ist ein Community -Projekt, das Beiträge akzeptiert - lassen Sie uns die fortschrittlichste KI -Inferenzmotor der Welt machen.
Holen Sie sich Hilfe bei Zwietracht
? Lizenz: Apache 2.0