AI型號的閃電式服務引擎。
簡單的。靈活的。企業規模。
Litserve是一種易於使用,靈活的服務引擎,用於基於FastApi的AI型號。它通過批處理,流和GPU自動升級等功能增強了FastApi,從而消除了每個型號重建FastApi服務器的需求。
由於AI特異性的多工作者處理,Litserve至少比普通Fastapi快2倍。
✅(2x)+更快的服務✅易於使用✅llms,non LLM等 ✅帶上自己的型號✅pytorch/jax/tf/...✅建立在fastapi上 ✅gpu自動化✅批處理,流媒體✅自助宿主或⚡️ ✅複合AI✅與VLLM融合了
通過PIP安裝Litserve(更多選項):
pip install litserve這個帶有2種型號(AI複合系統)的玩具示例顯示了Litserve的靈活性(請參閱真實示例):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )現在通過命令行運行服務器
python server.py運行自動生成的測試客戶端:
python client.py 或使用此終端命令:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} 'Litserve不僅適用於Vllm或Ollama等LLM;它為任何具有完全控制內部內容的AI模型服務(了解更多)。
對於輕鬆的LLM服務,請將VLLM與Litserve集成或使用Litgpt(建在Litserve上)。
litgpt serve microsoft/phi-2
了解如何更快地使該服務器200倍。
使用Litserve部署任何模型或AI服務:(化合物AI,Gen AI,Classic ML,Embeddings,LLMS,Vision,Audio等...)
玩具模型:你好世界
LLM: Llama 3.2,LLM代理服務器,具有工具使用的代理
抹布: VLLM抹布(Llama 3.2),RAG API(LlamainDex)
NLP:擁抱臉,伯特,文字嵌入API
多模式: OpenAI剪輯,minicpm,PHI-3.5視覺指示,QWEN2-VL,PIXTRAL
音頻:耳語,聽力,穩定,降噪(DeepFilternet)
視覺:穩定的擴散2,AuraFlow,Flux,圖像超級分辨率(Aura SR),
背景拆除,控制穩定擴散(控製網)
語音:文本語音(XTTS v2),parler-tts
古典ML:隨機森林,XGBoost
其他:媒體轉換API(FFMPEG),Pytorch + Tensorflow在一個API中
瀏覽100多個社區構建的模板
最先進的功能:
✅(2倍)+比普通fastapi快
✅帶上自己的模型
✅構建複合系統(1+型號)
✅gpu自動化
✅批處理
✅流
✅工人自動化
✅機器上的自助宿主
✅主機在閃電AI上完全管理
✅為所有模型提供服務:(LLM,視覺等)
✅比例為零(無服務器)
✅支持pytorch,jax,tf等...
✅符合OpenAPI
✅打開AI兼容性
✅身份驗證
✅dockerization
10+功能...
注意:我們優先考慮可擴展的企業級特徵而不是炒作。
Litserve專為AI工作負載而設計。專業的多工廠處理至少要比FastApi提供2倍的速度。
批處理和GPU自動化之類的其他功能可以使性能遠遠超過2倍,從而有效地擴展比Fastapi和Torchserve更有能力處理更多的同時請求。
在這裡重現完整的基準測試(更高)。
這些結果用於圖像和文本分類ML任務。其他ML任務的性能關係(嵌入,LLM服務,音頻,細分,對象檢測,摘要等...)。
在LLM服務上註意:對於高性能的LLM服務(例如Ollama/VLLM),將VLLM與Litserve集成,使用Litgpt或與Litserve構建自定義的VLLM樣服務器。需要使用Litserve進行的優化,以最大程度地提高LLM性能。
Litserve可以在您自己的機器上獨立託管,也可以通過Lightning Studios進行全面管理。
自我託管是黑客,學生和DIY開發人員的理想選擇,而完全管理的託管是需要輕鬆自動化,安全性,發布管理以及99.995%的正常運行時間和可觀察性的企業開發人員的理想選擇。
| 特徵 | 自我管理 | 在工作室中完全管理 |
|---|---|---|
| 部署 | ✅自己部署 | ✅一個按鈕雲部署 |
| 負載平衡 | ✅ | |
| 自動化 | ✅ | |
| 比例為零 | ✅ | |
| 多機器推理 | ✅ | |
| 驗證 | ✅ | |
| 自己的VPC | ✅ | |
| AWS,GCP | ✅ | |
| 使用自己的雲提交 | ✅ |
Litserve是一個接受貢獻的社區項目 - 讓我們製作世界上最先進的AI推理引擎。
在不和諧方面獲得幫助
?許可證:Apache 2.0