محرك التقديم سريع البرق لنماذج الذكاء الاصطناعى.
سهل. مرن. على نطاق المؤسسة.
Litserve هو محرك خدمة سهلة الاستخدام ومرنة لنماذج الذكاء الاصطناعى المدمجة على fastapi. إنه يعزز fastapi بميزات مثل التجميع والبث و GPU Autoscaling يلغي الحاجة إلى إعادة بناء خادم Fastapi لكل نموذج.
Litserve أسرع على الأقل 2x من fastapi العادي بسبب معالجة متعددة العامل الخاصة بالنيابة.
✅ (2x)+ وجبة أسرع ✅ سهلة الاستخدام ✅ llms ، غير LLMs والمزيد ✅ أحضر النموذج الخاص بك ✅ pytorch/jax/tf/... ✅ بنيت على fastapi ✅ GPU autoscaling ✅ تجميع ، تدفق ✅ مضيف ذاتي أو ⚡ ✅ Compound AI ✅ تتكامل مع VLLM والمزيد
تثبيت Litserve عبر PIP (المزيد من الخيارات):
pip install litserveيُظهر مثال لعبة مع نموذجين (نظام مركب AI) مرونة Litserve (انظر أمثلة حقيقية):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )قم الآن بتشغيل الخادم عبر سطر الأوامر
python server.pyقم بتشغيل عميل الاختبار الذي تم إنشاؤه تلقائيًا:
python client.py أو استخدم هذا الأمر الطرفي:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} ' Litserve ليس فقط LLMs مثل Vllm أو Ollama ؛ إنه يخدم أي نموذج منظمة العفو الدولية مع التحكم الكامل في الداخلية (تعرف على المزيد).
لسهولة التقديم LLM ، دمج VLLM مع litserve ، أو استخدم litgpt (مبنية على litserve).
litgpt serve microsoft/phi-2
تعلم كيفية جعل هذا الخادم 200x أسرع.
استخدم Litserve لنشر أي نموذج أو خدمة منظمة العفو الدولية: (CORPOUND AI ، Gen AI ، ML Classic ، Obdedings ، LLMs ، Vision ، Audio ، إلخ ...)
نموذج لعبة: مرحبا العالم
LLMS: Llama 3.2 ، LLM Proxy Server ، Agent مع استخدام الأداة
خرقة: Vllm Rag (Llama 3.2) ، Rag API (Llamaindex)
NLP: Hugging Face ، Bert ، Text Exmbding API
MultimDal: Openai Clip ، Minicpm ، PHI-3.5 Vision Endruct ، Qwen2-VL ، pixtral
الصوت: همس ، صوتي ، stableaudio ، إلغاء الضوضاء (DeepFilternet)
الرؤية: انتشار مستقر 2 ، Auraflow ، Flux ، Dise Super Desolution (Aura SR) ،
إزالة الخلفية ، والتحكم في الانتشار المستقر (ControlNet)
الكلام: النص الكلام (XTTS V2) ، Parler-TTS
ML الكلاسيكية: غابة عشوائية ، xgboost
متنوعة: API تحويل الوسائط (FFMPEG) ، Pytorch + TensorFlow في API واحد
تصفح أكثر من قوالب مجتمعية
الميزات الحديثة:
✅ (2x)+ أسرع من fastapi العادي
✅ أحضر النموذج الخاص بك
✅ بناء أنظمة المركبة (1+ نماذج)
✅ GPU autoscaling
batching
✅ تدفق
✅ العامل autoscaling
✅ مضيف ذاتي على أجهزتك
✅ مضيف يدار بالكامل على البرق الذكاء الاصطناعي
✅ خدمة جميع النماذج: (LLMs ، الرؤية ، إلخ)
✅ النطاق إلى الصفر (بدون خادم)
✅ يدعم Pytorch ، Jax ، TF ، إلخ ...
✅ Openapi متوافق
✅ افتح توافق الذكاء الاصطناعي
✅ المصادقة
✅ التنسيق
10+ ميزات ...
ملاحظة: نعطي الأولوية للميزات القابلة للتطوير على مستوى المؤسسة على الضجيج.
تم تصميم Litserve لأعباء عمل الذكاء الاصطناعي. يوفر معالجة متخصصة متعددة العامل تسريع 2x كحد أدنى على fastapi .
يمكن للميزات الإضافية مثل التجويف و GPU autoscaling أن تقود الأداء إلى ما هو أبعد من 2x ، وتتوسع بكفاءة للتعامل مع الطلبات المتزامنة أكثر من Fastapi و Torchserve.
إعادة إنتاج المعايير الكاملة هنا (أعلى أفضل).
هذه النتائج مخصصة لمهام تصنيف الصور والنص. تحتفظ علاقات الأداء بمهام ML الأخرى (التضمين ، وخدمة LLM ، والصوت ، والتجزئة ، والكشف عن الكائنات ، والتلخيص ، إلخ ...).
ملاحظة على LLM Serving: من أجل خدمة LLM عالية الأداء (مثل Ollama/VLLM) ، أو دمج VLLM مع Litserve ، أو استخدام Litgpt ، أو بناء خادم شبيه بـ VLLM المخصص مع Litserve. هناك حاجة إلى تحسينات مثل KV-Gaching ، والتي يمكن القيام بها باستخدام Litserve ، لزيادة أداء LLM إلى الحد الأقصى.
يمكن استضافة Litserve بشكل مستقل على أجهزتك الخاصة أو تتم إدارتها بالكامل عبر استوديوهات Lightning.
يعد الاستضافة الذاتية مثالية للمتسللين والطلاب ومطوري DIY ، في حين أن الاستضافة المدارة بالكامل مثالية لمطوري المؤسسات الذين يحتاجون إلى سهولة في التلقائي ، والأمان ، وإدارة الإصدار ، و 99.995 ٪ من وقت التشغيل والملاحظة.
| ميزة | تدار الذات | تدار بالكامل في الاستوديوهات |
|---|---|---|
| النشر | ✅ افعل ذلك بنفسك النشر | ✅ نشر السحابة الواحدة الزر |
| موازنة تحميل | ✅ | |
| التلقائي | ✅ | |
| النطاق إلى الصفر | ✅ | |
| استنتاج متعدد الآلة | ✅ | |
| المصادقة | ✅ | |
| تملك VPC | ✅ | |
| AWS ، GCP | ✅ | |
| استخدم السحابة الخاصة بك | ✅ |
Litserve هو مشروع مجتمعي يقبل المساهمات - دعونا نجعل محرك الاستدلال الأكثر تقدماً في العالم.
احصل على مساعدة في الخلاف
؟ الترخيص: Apache 2.0