AIモデル用の稲妻エンジン。
簡単。フレキシブル。エンタープライズスケール。
Litserveは、Fastapi上に構築されたAIモデル用の使いやすく柔軟なサービングエンジンです。バッチ、ストリーミング、GPUの自動焦点などの機能でFastapiを補強し、モデルごとにFastAPIサーバーを再構築する必要性がなくなります。
Litserveは、AI固有のマルチワーカーの取り扱いにより、Plain Fastapiよりも少なくとも2倍高速です。
✅(2x)+より速いサービング own独自のモデルを持参してくださいpytorch/jax/tf/... ✅GPUオートスケーリング✅バッチング、ストリーミング ✅化合物AI✅VLLMなどと統合します
PIP経由でLitserveをインストールします(その他のオプション):
pip install litserve2つのモデル(AI化合物システム)を備えたこのおもちゃの例は、Litserveの柔軟性を示しています(実際の例を参照)。
# server.py
import litserve as ls
# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI ( ls . LitAPI ):
def setup ( self , device ):
# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...
self . model1 = lambda x : x ** 2
self . model2 = lambda x : x ** 3
def decode_request ( self , request ):
# Convert the request payload to model input.
return request [ "input" ]
def predict ( self , x ):
# Easily build compound systems. Run inference and return the output.
squared = self . model1 ( x )
cubed = self . model2 ( x )
output = squared + cubed
return { "output" : output }
def encode_response ( self , output ):
# Convert the model output to a response payload.
return { "output" : output }
# (STEP 2) - START THE SERVER
if __name__ == "__main__" :
# scale with advanced features (batching, GPUs, etc...)
server = ls . LitServer ( SimpleLitAPI (), accelerator = "auto" , max_batch_size = 1 )
server . run ( port = 8000 )次に、コマンドラインを介してサーバーを実行します
python server.py自動生成テストクライアントを実行します。
python client.py または、この端末コマンドを使用します。
curl -X POST http://127.0.0.1:8000/predict -H " Content-Type: application/json " -d ' {"input": 4.0} 'Litserveは、VllmやOllamaのようなLLMだけではありません。内部を完全に制御するAIモデルにサービスを提供します(詳細をご覧ください)。
簡単にLLMサービングするには、VLLMをLitserveと統合するか、Litgpt(Litserve上に構築)を使用します。
litgpt serve microsoft/phi-2
このサーバーを200倍高速にする方法を学びます。
Litserveを使用して、任意のモデルまたはAIサービスを展開します。
おもちゃモデル:こんにちは世界
LLMS: LLAMA 3.2、LLMプロキシサーバー、ツール使用のエージェント
rag: vllm rag(llama 3.2)、rag api(llamaindex)
NLP:顔、バート、テキスト埋め込みAPI
マルチモーダル: Openai Clip、MinicPM、PHI-3.5 Vision Instruct、QWEN2-VL、PIXTRAL
オーディオ:ささやき、オーディオクラフト、stableaudio、ノイズキャンセル(deepfilternet)
ビジョン:安定した拡散2、オーラフロー、フラックス、画像スーパー解像度(オーラSR)、
バックグラウンド除去、コントロール安定拡散(ControlNet)
スピーチ: Text-Speech(XTTS V2)、Parler-TTS
クラシックML:ランダムフォレスト、xgboost
その他:メディア変換API(ffmpeg)、pytorch + tensorflow in one API
100以上のコミュニティ構築テンプレートを閲覧します
最先端の機能:
✅(2x)+ Plain Fastapiよりも速い
own独自のモデルを持参してください
compound化合物システムを構築する(1+モデル)
✅GPU自動焦点
✅バッチ
✅ストリーミング
✅労働者の自動化
machineマシンに自己ホスト
dlightning lightning aiで完全に管理されているホスト
✅すべてのモデルを提供する:(LLM、ビジョンなど)
✅ゼロまでのスケール(サーバーレス)
pytorch、jax、tfなどをサポートしています...
openapi準拠
ai AIの互換性を開きます
✅認証
dockerization
10以上の機能...
注:スケーラブルなエンタープライズレベルの機能よりも優先順位を付けます。
Litserveは、AIワークロード用に設計されています。専門化されたマルチワーカーのハンドリングは、Fastapiよりも最低2倍のスピードアップを提供します。
バッチングやGPUの自動焦点などの追加機能は、2倍をはるかに超えるパフォーマンスを駆動でき、FastapiやTorchserveよりも多くの同時リクエストを処理するために効率的にスケーリングできます。
ここでは完全なベンチマークを再現します(より高い方が優れています)。
これらの結果は、画像およびテキスト分類MLタスク用です。パフォーマンス関係は、他のMLタスク(埋め込み、LLMサービング、オーディオ、セグメンテーション、オブジェクト検出、要約など)に保持されます。
LLMサービングに関する注意:高性能LLMサービング(Ollama/VLLMなど)の場合、VLLMをLitserveと統合し、Litgptを使用するか、LitserveでカスタムVLLMのようなサーバーを構築します。 LITSERVEで実行できるKVキャッシュなどの最適化は、LLMパフォーマンスを最大化するために必要です。
Litserveは、独自のマシンで独立してホストすることも、Lightning Studiosを介して完全に管理することもできます。
自己ホスティングはハッカー、学生、DIY開発者に最適ですが、完全に管理されたホスティングは、簡単な自動焦点、セキュリティ、リリース管理、99.995%の稼働可能性と観測性を必要とするエンタープライズ開発者に最適です。
| 特徴 | 自己管理 | スタジオで完全に管理されています |
|---|---|---|
| 展開 | dowary自分で展開してください | ✅ワンボタンクラウドの展開 |
| ロードバランシング | ✅ | |
| オートスケーリング | ✅ | |
| スケーリングゼロ | ✅ | |
| マルチマシン推論 | ✅ | |
| 認証 | ✅ | |
| 独自のVPC | ✅ | |
| AWS、GCP | ✅ | |
| あなた自身のクラウドコミットを使用してください | ✅ |
Litserveは、貢献を受け入れるコミュニティプロジェクトです。世界で最も高度なAI推論エンジンを作成しましょう。
不一致で助けを得る
?ライセンス:Apache 2.0