เครื่องยนต์ที่ให้บริการสายฟ้าเร็วสำหรับรุ่น AI
ง่าย. ยืดหยุ่นได้. ระดับองค์กร
Litserve เป็นเครื่องยนต์ที่ให้บริการที่ใช้งานง่ายและยืดหยุ่นสำหรับรุ่น AI ที่สร้างขึ้นบน Fastapi มันเพิ่ม fastapi ด้วยคุณสมบัติเช่นการแบตช์การสตรีมและ GPU autoscaling ช่วยลดความจำเป็นในการสร้างเซิร์ฟเวอร์ fastapi ต่อรุ่น
Litserve เร็วกว่า Fastapi ธรรมดาอย่างน้อย 2x เนื่องจากการจัดการหลายคนที่เฉพาะเจาะจงของ AI
✅ (2x)+ การให้บริการที่เร็วขึ้น✅ใช้งานง่าย✅ llms, ไม่ใช่ LLM และอื่น ๆ ✅นำโมเดลของคุณมาเอง✅ pytorch/jax/tf/... ✅สร้างขึ้นบน fastapi ✅ GPU Autoscaling ✅การแบทช์สตรีมมิ่ง✅โฮสต์ตัวเองหรือ⚡จัดการ ✅ผสม ai ✅รวมกับ vllm และอื่น ๆ
ติดตั้ง Litserve ผ่าน PIP (ตัวเลือกเพิ่มเติม):
pip install litserveตัวอย่างของเล่นนี้ที่มี 2 รุ่น (ระบบผสม AI) แสดงความยืดหยุ่นของ Litserve (ดูตัวอย่างจริง):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )ตอนนี้เรียกใช้เซิร์ฟเวอร์ผ่านบรรทัดคำสั่ง
python server.pyเรียกใช้ไคลเอนต์ทดสอบที่สร้างขึ้นอัตโนมัติ:
python client.py หรือใช้คำสั่งเทอร์มินัลนี้:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} ' Litserve ไม่ได้ มีไว้ สำหรับ LLM เช่น VLLM หรือ Ollama เท่านั้น มันให้บริการโมเดล AI ใด ๆ ที่มีการควบคุมภายในภายใน (เรียนรู้เพิ่มเติม)
สำหรับการให้บริการ LLM ง่าย ๆ รวม VLLM เข้ากับ litserve หรือใช้ LITGPT (สร้างขึ้นบน Litserve)
litgpt serve microsoft/phi-2
เรียนรู้วิธีทำให้เซิร์ฟเวอร์นี้ 200x เร็วขึ้น
ใช้ Litserve เพื่อปรับใช้บริการโมเดลหรือ AI ใด ๆ : (Compound AI, Gen AI, Classic ML, Embeddings, LLMS, Vision, Audio, ฯลฯ ... )
Toy Model: Hello World
LLMS: LLAMA 3.2, LLM Proxy Server, ตัวแทนที่ใช้เครื่องมือใช้งาน
Rag: Vllm Rag (Llama 3.2), Rag API (Llamaidex)
NLP: Hugging Face, Bert, Text Embedding API
Multimodal: Openai Clip, MinicPM, PHI-3.5 Vision Instruct, QWEN2-VL, PIXTRAL
เสียง: Whisper, Audiocraft, Stableaudio, การยกเลิกเสียงรบกวน (DeepFilternet)
การมองเห็น: การแพร่กระจายที่เสถียร 2, Auraflow, ฟลักซ์, ภาพความละเอียดสุดยอด (Aura SR),,,
การกำจัดพื้นหลัง, การควบคุมการแพร่กระจายที่เสถียร (ControlNet)
คำพูด: ข้อความพูด (xtts v2), parler-tts
ML คลาสสิก: ป่าสุ่ม, xgboost
เบ็ดเตล็ด: การแปลงสื่อ API (FFMPEG), pytorch + tensorflow ในหนึ่ง API
เรียกดูเทมเพลตที่สร้างโดยชุมชน 100+
คุณสมบัติที่ทันสมัย:
✅ (2x)+ เร็วกว่า fastapi ธรรมดา
✅นำโมเดลของคุณมาเอง
✅สร้างระบบผสม (รุ่น 1+)
✅ GPU Autoscaling
✅การแบตช์
✅สตรีมมิ่ง
✅คนงานอัตโนมัติ
✅โฮสต์ตัวเองบนเครื่องของคุณ
✅โฮสต์ได้รับการจัดการอย่างเต็มที่บน Lightning AI
✅ให้บริการทุกรุ่น: (LLMS, Vision, ฯลฯ )
✅สเกลเป็นศูนย์ (ไม่มีเซิร์ฟเวอร์)
✅รองรับ Pytorch, Jax, TF ฯลฯ ...
✅ Openapi เป็นไปตามมาตรฐาน
✅เปิดความเข้ากันได้ของ AI
✅การรับรองความถูกต้อง
✅ Dockerization
คุณสมบัติ 10+ ...
หมายเหตุ: เราจัดลำดับความสำคัญของคุณสมบัติระดับองค์กรที่ปรับขนาดได้มากกว่า hype
Litserve ออกแบบมาสำหรับเวิร์กโหลด AI การจัดการกับคนงานหลายคนพิเศษมอบ การเร่งความเร็วขั้นต่ำ 2x เหนือ fastapi
คุณสมบัติเพิ่มเติมเช่นการแบทช์และการปรับแต่ง GPU สามารถขับเคลื่อนประสิทธิภาพได้ดีกว่า 2X การปรับขนาดอย่างมีประสิทธิภาพเพื่อจัดการคำขอพร้อมกันมากกว่า Fastapi และ Torchserve
ทำซ้ำเกณฑ์มาตรฐานเต็มรูปแบบที่นี่ (สูงกว่าดีกว่า)
ผลลัพธ์เหล่านี้มีไว้สำหรับงานการจำแนกรูปภาพและข้อความ ML ความสัมพันธ์ด้านประสิทธิภาพมีไว้สำหรับงาน ML อื่น ๆ (การฝัง, การให้บริการ LLM, เสียง, การแบ่งส่วน, การตรวจจับวัตถุ, การสรุป ฯลฯ ... )
หมายเหตุเกี่ยวกับการให้บริการ LLM: สำหรับการให้บริการ LLM ที่มีประสิทธิภาพสูง (เช่น Ollama/VLLM) รวม VLLM เข้ากับ Litserve ใช้ LITGPT หรือสร้างเซิร์ฟเวอร์ VLLM ที่คุณกำหนดเองด้วย Litserve การปรับให้เหมาะสมเช่น KV-caching ซึ่งสามารถทำได้ด้วย Litserve เป็นสิ่งจำเป็นเพื่อเพิ่มประสิทธิภาพ LLM
Litserve สามารถโฮสต์ได้อย่างอิสระบนเครื่องจักรของคุณเองหรือจัดการอย่างเต็มที่ผ่าน Lightning Studios
การโฮสต์ตัวเองเหมาะอย่างยิ่งสำหรับแฮ็กเกอร์นักเรียนและนักพัฒนา DIY ในขณะที่โฮสติ้งที่มีการจัดการอย่างเต็มที่เหมาะสำหรับนักพัฒนาองค์กรที่ต้องการการตรวจสอบอัตโนมัติการรักษาความปลอดภัยการจัดการการปลดปล่อยและเวลาการใช้งานและการสังเกตการณ์ 99.995%
| คุณสมบัติ | จัดการด้วยตนเอง | จัดการอย่างเต็มที่บนสตูดิโอ |
|---|---|---|
| การปรับใช้ | ✅ทำเอง | ✅การปรับใช้คลาวด์ปุ่มเดียว |
| การปรับสมดุล | ||
| การตรวจสอบอัตโนมัติ | ||
| มาตราส่วนเป็นศูนย์ | ||
| การอนุมานหลายเครื่อง | ||
| การรับรองความถูกต้อง | ||
| VPC ของตัวเอง | ||
| AWS, GCP | ||
| ใช้คลาวด์ของคุณเอง |
Litserve เป็นโครงการชุมชนที่ยอมรับการมีส่วนร่วม - มาสร้างเอ็นจิ้นการอนุมาน AI ที่ทันสมัยที่สุดในโลกกันเถอะ
รับความช่วยเหลือเกี่ยวกับ Discord
- ใบอนุญาต: Apache 2.0