LitServe Download - LitServe Source Code Download

LitServe

Anderer Quellcode

v0.2.5

Herunterladen

Leicht AI -Modelle blitzschnell servieren ⚡

Lightning-Spast-Serviermotor für KI-Modelle.
Einfach. Flexibel. Unternehmenskala.

LitServe ist ein benutzerfreundlicher, flexibler Serviermotor für KI-Modelle, die auf Fastapi aufgebaut sind. Es erweitert Fastapi mit Funktionen wie Batching, Streaming und GPU -Autoscaling müssen die Notwendigkeit des Wiederaufbaus eines Fastapi -Servers pro Modell beseitigen.

LitServe ist mindestens 2x schneller als einfache Fastapi aufgrund der Umgang mit KI-spezifischer Multi-Arbeiter.

 ✅ (2x)+ schnelleres Servieren ✅ einfach zu bedienend ✅ llms, nicht llms und mehr
✅ Bringen Sie Ihr eigenes Modell mit ✅ Pytorch/jax/tf/... ✅ auf Fastapi aufgebaut       
✅ GPU Autoscaling ✅ Batching, Streaming ✅ SelbstHost oder ⚡️ verwaltet 
✅ Verbindungs ai ✅ Integrieren in VllM und mehr

Schnellstart • Beispiele • Merkmale • Leistung • Hosting • Dokumente

Schneller Start

Installieren Sie LitServe über PIP (weitere Optionen):

pip install litserve

Definieren Sie einen Server

Dieses Spielzeugbeispiel mit 2 Modellen (AI -Verbindungssystem) zeigt die Flexibilität von Litserve (siehe reale Beispiele):

 # server.py
import litserve as ls

# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
    def setup ( self , device ):
        # setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
        self . model1 = lambda x : x ** 2
        self . model2 = lambda x : x ** 3

    def decode_request ( self , request ):
        # Convert the request payload to model input.
        return request [ "input" ] 

    def predict ( self , x ):
        # Easily build compound systems. Run inference and return the output.
        squared = self . model1 ( x )
        cubed = self . model2 ( x )
        output = squared + cubed
        return { "output" : output }

    def encode_response ( self , output ):
        # Convert the model output to a response payload.
        return { "output" : output } 

# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
    # scale with advanced features (batching, GPUs, etc...)
    server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
    server . run ( port = 8000 )

Führen Sie nun den Server über die Befehlszeile aus

python server.py

Testen Sie den Server

Führen Sie den automatisch generierten Test Client aus:

python client.py

Oder verwenden Sie diesen Terminalbefehl:

curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} '

LLM Serving

LitServe ist nicht nur für LLMs wie Vllm oder Ollama; Es dient jedem KI -Modell mit vollständigen Kontrolle über Interna (erfahren Sie mehr).
Integrieren Sie VllM für eine einfache LLM -Portion in LitServe oder verwenden Sie LITGPT (gebaut auf LitServe).

 litgpt serve microsoft/phi-2

Zusammenfassung

Mit Litapi können Sie problemlos komplexe KI -Systeme mit einem oder mehreren Modellen (DOCS) erstellen.
Verwenden Sie die Setup-Methode für einmalige Aufgaben wie Verbindungsmodelle, DBS und Ladedaten (DOCS).
Litserver behandelt Optimierungen wie Batching, GPU -Autoscaling, Streaming usw. (Dokumente).
Self -Host auf Ihren eigenen Maschinen oder verwenden Sie Lightning Studios für eine vollständig verwaltete Bereitstellung (erfahren Sie mehr).

Erfahren Sie, wie Sie diesen Server 200x schneller machen.

Ausgewählte Beispiele

Verwenden Sie LitServe, um ein Modell oder einen KI -Dienst bereitzustellen: (Compound AI, Gen AI, Classic ML, Embettdings, LLMs, Vision, Audio usw.).

LitServe_overview.mp4

Beispiele

 Spielzeugmodell: Hallo Welt
LLMs: LLAMA 3.2, LLM Proxy Server, Agent mit Toolsutz
RAG: VllM RAG (Lama 3.2), Rag API (llamaindex)
NLP: Umarmung, Bert, Textbetting -API
Multimodal: OpenAI-Clip, Minicpm, Phi-3,5 Vision, Qwen2-VL, Pixtral
Audio: Whisper, Audiocraft, StableAudio, Geräuschunterdrückung (DeepFilternet)
Vision: Stabile Diffusion 2, Auraflow, Fluss, Bild Superauflösung (Aura SR),
                Hintergrundentfernung, Kontrollstabile Diffusion (ControlNet)
Sprache: Textrede (XTTS V2), Parler-TTS
Klassischer ML: Zufallswald, xgboost
Miscellaneous: Media Conversion API (FFMPEG), Pytorch + Tensorflow in einer API

Durchsuchen Sie mehr als 100 von der Community gebaute Vorlagen

Merkmale

Hochmoderne Funktionen:

✅ (2x)+ schneller als einfache Fastapi
✅ Bringen Sie Ihr eigenes Modell mit
✅ Verbundsysteme bauen (1+ Modelle)
✅ GPU -Autoscaling
✅ Batching
✅ Streaming
✅ Arbeiterautoscaling
✅ SelbstHost auf Ihren Maschinen
✅ Host GOERT VOLLSTÄNDIG VON LELLNING AI
✅ Alle Modelle dienen: (LLMs, Vision usw.)
✅ Skalierung auf Null (serverlos)
✅ Unterstützt Pytorch, Jax, TF usw.
✅ OpenAPI -konform
✅ Öffnen Sie die KI -Kompatibilität
✅ Authentifizierung
✅ Dockerisierung

10+ Funktionen ...

Hinweis: Wir priorisieren skalierbare Funktionen auf Unternehmensebene vor Hype.

Leistung

LitServe ist für KI -Arbeitsbelastungen ausgelegt. Die minimale 2-fache Beschleunigung über Fastapi liefert eine spezielle Multi-Arbeiter-Handhabung.

Zusätzliche Merkmale wie Batching und GPU -Autoscaling können die Leistung weit über 2x übertragen und effizient skalieren, um gleichzeitigere Anfragen zu bearbeiten als Fastapi und Torchserve.

Reproduzieren Sie die vollen Benchmarks hier (höher ist besser).

Diese Ergebnisse beziehen sich auf ML -Aufgaben der Bild- und Textklassifizierung. Die Leistungsbeziehungen halten für andere ML -Aufgaben (Einbettung, LLM -Servieren, Audio, Segmentierung, Objekterkennung, Zusammenfassung usw.).

Hinweis zum LLM-Servieren: Integrieren Sie VLLM in LLM-Servieren (wie OLLAMA/VLLM) in LLM (wie OLLAMA/VLLM) in LitServe, verwenden Sie LITGPT oder erstellen Sie Ihren benutzerdefinierten VLLM-ähnlichen Server mit LitServe. Optimierungen wie KV-Caching, die mit LitServe durchgeführt werden können, sind erforderlich, um die LLM-Leistung zu maximieren.

Hosting -Optionen

LitServe kann unabhängig auf Ihren eigenen Maschinen gehostet werden oder über Lightning Studios vollständig verwaltet werden.

Das Selbsthosting ist ideal für Hacker, Studenten und DIY-Entwickler, während das voll verwaltete Hosting ideal für Unternehmensentwickler ist, die einfache Autoscaling, Sicherheit, Release-Management und 99,995% Verfügbarkeit und Beobachtbarkeit benötigen.

Besonderheit	Sich selbst verwaltet	Voll verwaltet in Studios
Einsatz	✅ Machen Sie es selbst Bereitstellung	✅ Ein-Knopf-Cloud-Bereitstellung
Lastausgleich		✅
Autoscaling		✅
Skalierung auf Null		✅
Multi-Machine-Inferenz		✅
Authentifizierung		✅
Eigener VPC		✅
AWS, GCP		✅
Verwenden Sie Ihre eigenen Cloud -Commits		✅

Gemeinschaft

LitServe ist ein Community -Projekt, das Beiträge akzeptiert - lassen Sie uns die fortschrittlichste KI -Inferenzmotor der Welt machen.

Holen Sie sich Hilfe bei Zwietracht
? Lizenz: Apache 2.0

Expandieren

Zusätzliche Informationen

Version v0.2.5
Typ Anderer Quellcode
Aktualisierungszeit 2025-02-27
Größe 126.28KB
Kommt von Github

Ähnliche Anwendungen

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

LitServe

Leicht AI -Modelle blitzschnell servieren ⚡

Schneller Start

Definieren Sie einen Server

Testen Sie den Server

LLM Serving

Zusammenfassung

Ausgewählte Beispiele

Beispiele

Merkmale

Leistung

Hosting -Optionen

Gemeinschaft

Google Dorks

shepherd

hidusbf

mongo express

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf