Unduh LitServe - Unduh Kode Sumber LitServe

LitServe

Kode sumber lainnya

v0.2.5

Unduh

Dengan mudah melayani model AI kilat cepat ⚡

Mesin penyajian Lightning-Fast untuk model AI.
Mudah. Fleksibel. Skala perusahaan.

Litserve adalah mesin penyajian yang mudah digunakan dan fleksibel untuk model AI yang dibangun di Fastapi. Ini menambah FASTAPI dengan fitur -fitur seperti batching, streaming, dan Autoscaling GPU menghilangkan kebutuhan untuk membangun kembali server FastAPI per model.

Litserve setidaknya 2x lebih cepat dari fastapi polos karena penanganan multi-pekerja khusus AI.

 ✅ (2x)+ porsi lebih cepat ✅ mudah digunakan ✅ llms, bukan llms dan banyak lagi
✅ Bawa model Anda sendiri ✅ pytorch/jax/tf/... ✅ dibangun di atas fastapi       
✅ GPU Autoscaling ✅ Batching, Streaming ✅ Self-Host atau ⚡️ dikelola 
✅ Compound ai ✅ berintegrasi dengan VLLM dan banyak lagi

Mulai Cepat • Contoh • Fitur • Kinerja • Hosting • Dokumen

Awal yang cepat

Instal LitServe via PIP (lebih banyak opsi):

pip install litserve

Tentukan server

Contoh mainan ini dengan 2 model (sistem senyawa AI) menunjukkan fleksibilitas Litserve (lihat contoh nyata):

 # server.py
import litserve as ls

# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
    def setup ( self , device ):
        # setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
        self . model1 = lambda x : x ** 2
        self . model2 = lambda x : x ** 3

    def decode_request ( self , request ):
        # Convert the request payload to model input.
        return request [ "input" ] 

    def predict ( self , x ):
        # Easily build compound systems. Run inference and return the output.
        squared = self . model1 ( x )
        cubed = self . model2 ( x )
        output = squared + cubed
        return { "output" : output }

    def encode_response ( self , output ):
        # Convert the model output to a response payload.
        return { "output" : output } 

# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
    # scale with advanced features (batching, GPUs, etc...)
    server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
    server . run ( port = 8000 )

Sekarang jalankan server melalui baris perintah

python server.py

Uji server

Jalankan klien uji yang dihasilkan otomatis:

python client.py

Atau gunakan perintah terminal ini:

curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} '

LLM melayani

Litserve bukan hanya untuk LLMS seperti VLLM atau Ollama; Ini melayani model AI apa pun dengan kontrol penuh atas internal (pelajari lebih lanjut).
Untuk porsi LLM yang mudah, mengintegrasikan VLLM dengan Litserve, atau menggunakan litgpt (dibangun di atas Litserve).

 litgpt serve microsoft/phi-2

Ringkasan

Litapi memungkinkan Anda dengan mudah membangun sistem AI yang kompleks dengan satu atau lebih model (dokumen).
Gunakan metode pengaturan untuk tugas satu kali seperti menghubungkan model, DBS, dan memuat data (DOCS).
Litserver menangani optimisasi seperti batching, Autoscaling GPU, streaming, dll ... (dokumen).
Self Host pada mesin Anda sendiri atau gunakan Studio Lightning untuk penyebaran yang dikelola sepenuhnya (pelajari lebih lanjut).

Pelajari cara membuat server ini 200x lebih cepat.

Contoh unggulan

Gunakan Litserve untuk menggunakan model atau layanan AI apa pun: (Compound AI, Gen AI, ML Klasik, Embeddings, LLMS, Visi, Audio, dll ...)

Litserve_overview.mp4

Contoh

 Model mainan: halo dunia
LLMS: LLAMA 3.2, LLM Proxy Server, Agen dengan Penggunaan Alat
Rag: Vllm Rag (Llama 3.2), Rag API (Llamaindex)
NLP: Wajah Memeluk, Bert, Teks Embedding API
Multimodal: Klip OpenAI, MiniCPM, PHI-3.5 Visi Instruksi, Qwen2-Vl, Pixtral
Audio: Whisper, audiocraft, stableaudio, pembatalan kebisingan (DeepFilternet)
Visi: Difusi stabil 2, auraFlow, fluks, resolusi super gambar (aura sr),
                Penghapusan Latar Belakang, Difusi Stabil (ControlNet)
Pidato: Text-Speech (XTTS V2), Parler-Tts
ML Klasik: Hutan acak, xgboost
Lain -lain: API Konversi Media (FFMPEG), Pytorch + TensorFlow dalam satu API

Jelajahi 100+ Template yang Dibangun Komunitas

Fitur

Fitur canggih:

✅ (2x)+ lebih cepat dari fastapi polos
✅ Bawa model Anda sendiri
✅ Bangun sistem senyawa (1+ model)
✅ Autoscaling GPU
✅ Batching
✅ Streaming
✅ Autoscaling pekerja
✅ Pembawa acara sendiri di mesin Anda
✅ Tuan rumah sepenuhnya dikelola di Lightning AI
✅ Sajikan semua model: (llms, visi, dll.)
✅ Skala hingga nol (serverless)
✅ Mendukung Pytorch, Jax, TF, dll ...
✅ Openapi sesuai
✅ Buka kompatibilitas AI
✅ Otentikasi
✅ Dockerisasi

10+ fitur ...

CATATAN: Kami memprioritaskan fitur-fitur yang dapat diskalakan, tingkat perusahaan daripada hype.

Pertunjukan

Litserve dirancang untuk beban kerja AI. Penanganan multi-pekerja khusus memberikan speedup 2x minimum di atas Fastapi .

Fitur tambahan seperti batching dan autoscaling GPU dapat mendorong kinerja jauh melampaui 2x, penskalaan secara efisien untuk menangani permintaan yang lebih simultan daripada Fastapi dan Torchserve.

Mereproduksi tolok ukur lengkap di sini (lebih tinggi lebih baik).

Hasil ini untuk tugas klasifikasi gambar dan teks. Hubungan kinerja berlaku untuk tugas ML lainnya (embedding, porsi LLM, audio, segmentasi, deteksi objek, ringkasan dll ...).

Catatan pada LLM Sajian: Untuk penyajian LLM berkinerja tinggi (seperti ollama/vllm), mengintegrasikan VLLM dengan Litserve, menggunakan litgpt, atau membangun server seperti VLLM kustom Anda dengan Litserve. Optimalisasi seperti KV-Caching, yang dapat dilakukan dengan LitServe, diperlukan untuk memaksimalkan kinerja LLM.

Opsi hosting

Litserve dapat di -host secara mandiri di mesin Anda sendiri atau dikelola sepenuhnya melalui Studio Lightning.

Penculik mandiri sangat ideal untuk peretas, siswa, dan pengembang DIY, sementara hosting yang dikelola sepenuhnya sangat ideal untuk pengembang perusahaan yang membutuhkan autoscaling, keamanan, manajemen rilis, dan 99.995% uptime dan observabilitas 99,995%.

Fitur	Dikelola sendiri	Dikelola sepenuhnya di studio
Penyebaran	✅ Lakukan penempatan sendiri	✅ Deploy One-Tatton Cloud
Load Balancing		✅
Autoscaling		✅
Skala ke nol		✅
Inferensi multi-mesin		✅
Otentikasi		✅
Memiliki VPC sendiri		✅
AWS, GCP		✅
Gunakan komitmen cloud Anda sendiri		✅

Masyarakat

Litserve adalah proyek yang menerima proyek yang menerima - mari kita buat mesin inferensi AI paling canggih di dunia.

Dapatkan Bantuan untuk Perselisihan
? Lisensi: Apache 2.0

Memperluas

Informasi Tambahan

Versi v0.2.5
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-27
ukuran 126.28KB
Berasal dari Github

Aplikasi Terkait

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Kode sumber lainnya

1.0.0

Informasi Terkait Semua