AI型号的闪电式服务引擎。
简单的。灵活的。企业规模。
Litserve是一种易于使用,灵活的服务引擎,用于基于FastApi的AI型号。它通过批处理,流和GPU自动升级等功能增强了FastApi,从而消除了每个型号重建FastApi服务器的需求。
由于AI特异性的多工作者处理,Litserve至少比普通Fastapi快2倍。
✅(2x)+更快的服务✅易于使用✅llms,non LLM等 ✅带上自己的型号✅pytorch/jax/tf/...✅建立在fastapi上 ✅gpu自动化✅批处理,流媒体✅自助宿主或⚡️ ✅复合AI✅与VLLM融合了
通过PIP安装Litserve(更多选项):
pip install litserve这个带有2种型号(AI复合系统)的玩具示例显示了Litserve的灵活性(请参阅真实示例):
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )现在通过命令行运行服务器
python server.py运行自动生成的测试客户端:
python client.py 或使用此终端命令:
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} 'Litserve不仅适用于Vllm或Ollama等LLM;它为任何具有完全控制内部内容的AI模型服务(了解更多)。
对于轻松的LLM服务,请将VLLM与Litserve集成或使用Litgpt(建在Litserve上)。
litgpt serve microsoft/phi-2
了解如何更快地使该服务器200倍。
使用Litserve部署任何模型或AI服务:(化合物AI,Gen AI,Classic ML,Embeddings,LLMS,Vision,Audio等...)
玩具模型:你好世界
LLM: Llama 3.2,LLM代理服务器,具有工具使用的代理
抹布: VLLM抹布(Llama 3.2),RAG API(LlamainDex)
NLP:拥抱脸,伯特,文字嵌入API
多模式: OpenAI剪辑,minicpm,PHI-3.5视觉指示,QWEN2-VL,PIXTRAL
音频:耳语,听力,稳定,降噪(DeepFilternet)
视觉:稳定的扩散2,AuraFlow,Flux,图像超级分辨率(Aura SR),
背景拆除,控制稳定扩散(控制网)
语音:文本语音(XTTS v2),parler-tts
古典ML:随机森林,XGBoost
其他:媒体转换API(FFMPEG),Pytorch + Tensorflow在一个API中
浏览100多个社区构建的模板
最先进的功能:
✅(2倍)+比普通fastapi快
✅带上自己的模型
✅构建复合系统(1+型号)
✅gpu自动化
✅批处理
✅流
✅工人自动化
✅机器上的自助宿主
✅主机在闪电AI上完全管理
✅为所有模型提供服务:(LLM,视觉等)
✅比例为零(无服务器)
✅支持pytorch,jax,tf等...
✅符合OpenAPI
✅打开AI兼容性
✅身份验证
✅dockerization
10+功能...
注意:我们优先考虑可扩展的企业级特征而不是炒作。
Litserve专为AI工作负载而设计。专业的多工厂处理至少要比FastApi提供2倍的速度。
批处理和GPU自动化之类的其他功能可以使性能远远超过2倍,从而有效地扩展比Fastapi和Torchserve更有能力处理更多的同时请求。
在这里重现完整的基准测试(更高)。
这些结果用于图像和文本分类ML任务。其他ML任务的性能关系(嵌入,LLM服务,音频,细分,对象检测,摘要等...)。
在LLM服务上注意:对于高性能的LLM服务(例如Ollama/VLLM),将VLLM与Litserve集成,使用Litgpt或与Litserve构建自定义的VLLM样服务器。需要使用Litserve进行的优化,以最大程度地提高LLM性能。
Litserve可以在您自己的机器上独立托管,也可以通过Lightning Studios进行全面管理。
自我托管是黑客,学生和DIY开发人员的理想选择,而完全管理的托管是需要轻松自动化,安全性,发布管理以及99.995%的正常运行时间和可观察性的企业开发人员的理想选择。
| 特征 | 自我管理 | 在工作室中完全管理 |
|---|---|---|
| 部署 | ✅自己部署 | ✅一个按钮云部署 |
| 负载平衡 | ✅ | |
| 自动化 | ✅ | |
| 比例为零 | ✅ | |
| 多机器推理 | ✅ | |
| 验证 | ✅ | |
| 自己的VPC | ✅ | |
| AWS,GCP | ✅ | |
| 使用自己的云提交 | ✅ |
Litserve是一个接受贡献的社区项目 - 让我们制作世界上最先进的AI推理引擎。
在不和谐方面获得帮助
?许可证:Apache 2.0