Mesin penyajian Lightning-Fast untuk model AI.
Mudah. Fleksibel. Skala perusahaan.
Litserve adalah mesin penyajian yang mudah digunakan dan fleksibel untuk model AI yang dibangun di Fastapi. Ini menambah FASTAPI dengan fitur -fitur seperti batching, streaming, dan Autoscaling GPU menghilangkan kebutuhan untuk membangun kembali server FastAPI per model.
Litserve setidaknya 2x lebih cepat dari fastapi polos karena penanganan multi-pekerja khusus AI.
✅ (2x)+ porsi lebih cepat ✅ mudah digunakan ✅ llms, bukan llms dan banyak lagi ✅ Bawa model Anda sendiri ✅ pytorch/jax/tf/... ✅ dibangun di atas fastapi ✅ GPU Autoscaling ✅ Batching, Streaming ✅ Self-Host atau ⚡️ dikelola ✅ Compound ai ✅ berintegrasi dengan VLLM dan banyak lagi
Instal LitServe via PIP (lebih banyak opsi):
pip install litserveContoh mainan ini dengan 2 model (sistem senyawa AI) menunjukkan fleksibilitas Litserve (lihat contoh nyata):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )Sekarang jalankan server melalui baris perintah
python server.pyJalankan klien uji yang dihasilkan otomatis:
python client.py Atau gunakan perintah terminal ini:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} ' Litserve bukan hanya untuk LLMS seperti VLLM atau Ollama; Ini melayani model AI apa pun dengan kontrol penuh atas internal (pelajari lebih lanjut).
Untuk porsi LLM yang mudah, mengintegrasikan VLLM dengan Litserve, atau menggunakan litgpt (dibangun di atas Litserve).
litgpt serve microsoft/phi-2
Pelajari cara membuat server ini 200x lebih cepat.
Gunakan Litserve untuk menggunakan model atau layanan AI apa pun: (Compound AI, Gen AI, ML Klasik, Embeddings, LLMS, Visi, Audio, dll ...)
Model mainan: halo dunia
LLMS: LLAMA 3.2, LLM Proxy Server, Agen dengan Penggunaan Alat
Rag: Vllm Rag (Llama 3.2), Rag API (Llamaindex)
NLP: Wajah Memeluk, Bert, Teks Embedding API
Multimodal: Klip OpenAI, MiniCPM, PHI-3.5 Visi Instruksi, Qwen2-Vl, Pixtral
Audio: Whisper, audiocraft, stableaudio, pembatalan kebisingan (DeepFilternet)
Visi: Difusi stabil 2, auraFlow, fluks, resolusi super gambar (aura sr),
Penghapusan Latar Belakang, Difusi Stabil (ControlNet)
Pidato: Text-Speech (XTTS V2), Parler-Tts
ML Klasik: Hutan acak, xgboost
Lain -lain: API Konversi Media (FFMPEG), Pytorch + TensorFlow dalam satu API
Jelajahi 100+ Template yang Dibangun Komunitas
Fitur canggih:
✅ (2x)+ lebih cepat dari fastapi polos
✅ Bawa model Anda sendiri
✅ Bangun sistem senyawa (1+ model)
✅ Autoscaling GPU
✅ Batching
✅ Streaming
✅ Autoscaling pekerja
✅ Pembawa acara sendiri di mesin Anda
✅ Tuan rumah sepenuhnya dikelola di Lightning AI
✅ Sajikan semua model: (llms, visi, dll.)
✅ Skala hingga nol (serverless)
✅ Mendukung Pytorch, Jax, TF, dll ...
✅ Openapi sesuai
✅ Buka kompatibilitas AI
✅ Otentikasi
✅ Dockerisasi
10+ fitur ...
CATATAN: Kami memprioritaskan fitur-fitur yang dapat diskalakan, tingkat perusahaan daripada hype.
Litserve dirancang untuk beban kerja AI. Penanganan multi-pekerja khusus memberikan speedup 2x minimum di atas Fastapi .
Fitur tambahan seperti batching dan autoscaling GPU dapat mendorong kinerja jauh melampaui 2x, penskalaan secara efisien untuk menangani permintaan yang lebih simultan daripada Fastapi dan Torchserve.
Mereproduksi tolok ukur lengkap di sini (lebih tinggi lebih baik).
Hasil ini untuk tugas klasifikasi gambar dan teks. Hubungan kinerja berlaku untuk tugas ML lainnya (embedding, porsi LLM, audio, segmentasi, deteksi objek, ringkasan dll ...).
Catatan pada LLM Sajian: Untuk penyajian LLM berkinerja tinggi (seperti ollama/vllm), mengintegrasikan VLLM dengan Litserve, menggunakan litgpt, atau membangun server seperti VLLM kustom Anda dengan Litserve. Optimalisasi seperti KV-Caching, yang dapat dilakukan dengan LitServe, diperlukan untuk memaksimalkan kinerja LLM.
Litserve dapat di -host secara mandiri di mesin Anda sendiri atau dikelola sepenuhnya melalui Studio Lightning.
Penculik mandiri sangat ideal untuk peretas, siswa, dan pengembang DIY, sementara hosting yang dikelola sepenuhnya sangat ideal untuk pengembang perusahaan yang membutuhkan autoscaling, keamanan, manajemen rilis, dan 99.995% uptime dan observabilitas 99,995%.
| Fitur | Dikelola sendiri | Dikelola sepenuhnya di studio |
|---|---|---|
| Penyebaran | ✅ Lakukan penempatan sendiri | ✅ Deploy One-Tatton Cloud |
| Load Balancing | ✅ | |
| Autoscaling | ✅ | |
| Skala ke nol | ✅ | |
| Inferensi multi-mesin | ✅ | |
| Otentikasi | ✅ | |
| Memiliki VPC sendiri | ✅ | |
| AWS, GCP | ✅ | |
| Gunakan komitmen cloud Anda sendiri | ✅ |
Litserve adalah proyek yang menerima proyek yang menerima - mari kita buat mesin inferensi AI paling canggih di dunia.
Dapatkan Bantuan untuk Perselisihan
? Lisensi: Apache 2.0