AI 모델을위한 번개 빠른 서빙 엔진.
쉬운. 유연한. 엔터프라이즈 규모.
Litserve는 Fastapi에 구축 된 AI 모델을위한 사용하기 쉽고 유연한 서빙 엔진입니다. 배치, 스트리밍 및 GPU 자동화와 같은 기능으로 Fastapi를 증대하면 모델 당 FastApi 서버를 재건 할 필요가 없습니다.
Litserve는 AI 특이 적 다중 작업자 취급으로 인해 일반 Fastapi보다 2 배 이상 빠릅니다.
짐 ✅ 자신만의 모델 가져 오기 your Pytorch/Jax/Tf/... ✅ gpu 자동화 ✅ 배치, 스트리밍 ✅ 셀프 호스트 또는 ⚡️ 관리 compound 화합물 AI i vllm 등과 통합됩니다
PIP를 통해 LitServe 설치 (추가 옵션) :
pip install litserve2 개의 모델 (AI Compound System)이있는이 장난감 예제는 Litserve의 유연성을 보여줍니다 (실제 예 참조).
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )이제 명령 줄을 통해 서버를 실행하십시오
python server.py자동 생성 테스트 클라이언트를 실행하십시오.
python client.py 또는이 터미널 명령을 사용하십시오.
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} ' Litserve는 Vllm 또는 Ollama와 같은 LLM을위한 것이 아닙니다. 내부를 완전히 제어 할 수있는 AI 모델을 제공합니다 (자세히 알아보십시오).
쉽게 LLM 서빙을 위해 Vllm을 Litserve와 통합하거나 Litgpt (Litserve에 구축)를 사용하십시오.
litgpt serve microsoft/phi-2
이 서버를 200 배 더 빠르게 만드는 방법을 알아보십시오.
Litserve를 사용하여 모든 모델 또는 AI 서비스를 배포하십시오.
장난감 모델 : Hello World
LLMS : LLAMA 3.2, LLM 프록시 서버, 공구 사용 에이전트
RAG : Vllm Rag (Llama 3.2), Rag Api (Llamaindex)
NLP : 포옹 페이스, 베르트, 텍스트 포함 API
멀티 모달 : Openai Clip, Minicpm, Phi-3.5 Vision Instruct, Qwen2-VL, Pixtral
오디오 : Whisper, Audiocraft, StableAudio, 소음 취소 (DeepFilternet)
비전 : 안정적인 확산 2, Auraflow, Flux, Image Super Resolution (Aura SR),
배경 제거, 제어 안정 확산 (Controlnet)
연설 : Text-Speech (XTTS v2), Parler-Tts
클래식 ML : 랜덤 포레스트, XGBOOST
기타 : 미디어 변환 API (FFMPEG), 하나의 API의 Pytorch + Tensorflow
100 개 이상의 커뮤니티 제작 템플릿을 찾아보십시오
최신 기능 :
✅ (2x)+ 일반 Fastapi보다 빠릅니다
✅ 자신의 모델을 가져 오십시오
compound 화합물 시스템 구축 (1+ 모델)
gpu autoscaling
배치
✅ 스트리밍
worker 노동자 자동 분리
✅ 기계의 자조 주최자
lightning AI에서 완전히 관리됩니다
✅ 모든 모델을 제공합니다 : (LLMS, 비전 등)
scale 스케일로 0으로 (서버리스)
pytorch, Jax, TF 등을 지원합니다 ...
openApi 준수
AI 호환성을 열어줍니다
✅ 인증
dockerization
10+ 기능 ...
참고 : 과대 광고보다 확장 가능한 엔터프라이즈 수준의 기능을 우선시합니다.
Litserve는 AI 워크로드 용으로 설계되었습니다. 전문화 된 다중 노동자 핸들링은 Fastapi보다 최소 2 배 속도를 제공합니다.
배치 및 GPU 자동화와 같은 추가 기능은 2x 이상의 성능을 유도하여 Fastapi 및 Torchserve보다 더 많은 동시 요청을 처리하도록 효율적으로 확장 할 수 있습니다.
여기에서 전체 벤치 마크를 재현하십시오 (더 높음).
이 결과는 이미지 및 텍스트 분류 ML 작업을위한 것입니다. 성능 관계는 다른 ML 작업 (임베딩, LLM 서빙, 오디오, 세분화, 객체 감지, 요약 등)에 대한 성능 관계를 유지합니다.
LLM 서빙에 대한 참고 사항 : Ollama/VLLM과 같은 고성능 LLM 서빙의 경우 Vllm을 Litserve와 통합하거나 Litgpt를 사용하거나 Litserve를 사용하여 사용자 정의 VLLM 유사 서버를 구축하십시오. LLM 성능을 극대화하기 위해 Litserve로 수행 할 수있는 KV- 캐싱과 같은 최적화가 필요합니다.
Litserve는 자신의 기계에서 독립적으로 호스팅하거나 Lightning Studios를 통해 완전히 관리 할 수 있습니다.
자체 호스팅은 해커, 학생 및 DIY 개발자에게 이상적이며, 완전 관리되는 호스팅은 쉽게 자동화, 보안, 릴리스 관리 및 99.995% 가동 시간 및 관찰 가능성이 필요한 엔터프라이즈 개발자에게 이상적입니다.
| 특징 | 자체 관리 | 스튜디오에서 완전히 관리됩니다 |
|---|---|---|
| 전개 | ✅ 직접 배포하십시오 | ✅ 1 버튼 클라우드 배포 |
| 로드 밸런싱 | ✅ | |
| 자동화 | ✅ | |
| 스케일로 0으로 | ✅ | |
| 다기신 추론 | ✅ | |
| 입증 | ✅ | |
| 자신의 VPC | ✅ | |
| AWS, GCP | ✅ | |
| 자신의 클라우드 커밋을 사용하십시오 | ✅ |
Litserve는 공헌을 받아들이는 커뮤니티 프로젝트입니다. 세계에서 가장 진보 된 AI 추론 엔진을 만들어 봅시다.
불화에 대한 도움을 받으십시오
? 라이센스 : Apache 2.0