mosecダウンロードmosecソースコードのダウンロード

mosec

AI ソースコード

0.9.0

ダウンロード

モーゼック

ステータスを確認します

クラウドで効率的になったモデルサービング。

導入

モーゼック

MOSECは、MLモデル対応のバックエンドとマイクロサービスを構築するための高性能で柔軟なモデルサービスフレームワークです。トレーニングしたばかりの機械学習モデルと、効率的なオンラインサービスAPIとの間のギャップを埋めます。

パフォーマンスの高い：Rustで構築されたWebレイヤーとタスク調整は、Async I/Oによって駆動される効率的なCPU使用率に加えて燃える速度を提供します
使いやすさ：純粋にPythonのユーザーインターフェイス？、ユーザーは、オフラインテストのために行うのと同じコードを使用してMLフレームワークに依存しない方法でモデルを提供できます。
動的バッチ：バッチ付き推論と結果を返済するための異なるユーザーからの集約要求
パイプラインステージ：CPU/GPU/IO混合ワークロードを処理するためのパイプラインステージの複数のプロセスを生成します
クラウドフレンドリー：モデルのウォームアップ、優雅なシャットダウン、およびプロメテウス監視メトリックを使用して、クラウドで実行するように設計されています。
1つのことをしてください：オンラインサービングパートに焦点を当てるユーザーは、モデルの最適化とビジネスロジックに注意を払うことができます

インストール

MOSECにはPython 3.7以上が必要です。 Linux x86_64またはmacos x86_64/arm64用の最新のPYPIパッケージを以下にインストールします。

pip install -U mosec
# or install with conda
conda install conda-forge::mosec

ソースコードからビルドするには、Rustをインストールして、次のコマンドを実行します。

make package

distフォルダーにMOSECホイールファイルが取得されます。

使用法

MOSECがサービスとして事前に訓練された安定した拡散モデルを簡単にホストするのに役立つ方法を示します。ディフューザーと変圧器を前提条件としてインストールする必要があります。

pip install --upgrade diffusers[torch] transformers

サーバーを書きます

説明付きのサーバーコードについては、私をクリックしてください。

まず、ライブラリをインポートし、基本的なロガーを設定して、何が起こるかをよりよく観察します。

 from io import BytesIO
from typing import List

import torch  # type: ignore
from diffusers import StableDiffusionPipeline  # type: ignore

from mosec import Server , Worker , get_logger
from mosec . mixin import MsgpackMixin

logger = get_logger ()

次に、クライアントがテキストプロンプトを照会し、わずか3ステップで安定した拡散-V1-5モデルに基づいて画像を取得するためのAPIを構築します。

サービスをmosec.Workerを継承するクラスとして定義します。ここでは、 MsgpackMixinを継承して、MSGPACKシリアル化形式^（a）を使用します。
__init__メソッド内で、モデルを初期化し、対応するデバイスに配置します。オプションで、いくつかのデータを使用してself.exampleを割り当てることができます^（b）モデル。データは、ハンドラーの入力形式と互換性があることに注意してください。次に詳しく説明しています。
forwardメソッドをオーバーライドしてサービスハンドラー^（c）を書き込み、署名forward(self, data: Any | List[Any]) -> Any | List[Any] 。単一のアイテムまたはタプルを受信/返すことは、動的バッチ^（d）が構成されているかどうかによって異なります。

 class StableDiffusion ( MsgpackMixin , Worker ):
    def __init__ ( self ):
        self . pipe = StableDiffusionPipeline . from_pretrained (
            "sd-legacy/stable-diffusion-v1-5" , torch_dtype = torch . float16
        )
        self . pipe . enable_model_cpu_offload ()
        self . example = [ "useless example prompt" ] * 4  # warmup (batch_size=4)

    def forward ( self , data : List [ str ]) -> List [ memoryview ]:
        logger . debug ( "generate images for %s" , data )
        res = self . pipe ( data )
        logger . debug ( "NSFW: %s" , res [ 1 ])
        images = []
        for img in res [ 0 ]:
            dummy_file = BytesIO ()
            img . save ( dummy_file , format = "JPEG" )
            images . append ( dummy_file . getbuffer ())
        return images

[！注記]
（a）この例では、JSONはサポートしていないバイナリ形式で画像を返します（ペイロードを大きくするBase64でエンコードされていない限り）。したがって、msgpackは私たちのニーズに合っています。 MsgpackMixinを継承しない場合、JSONはデフォルトで使用されます。言い換えれば、サービス要求/応答のプロトコルは、MSGPACK、JSON、またはその他の形式のいずれかです（ミキシンを確認）。
（b）ウォームアップは通常、GPUメモリを事前に割り当てるのに役立ちます。ウォームアップの例が指定されている場合、サービスは、例がハンドラーを介して転送された後にのみ準備が整います。ただし、例が指定されていない場合、最初のリクエストのレイテンシは長くなると予想されます。このexample 、 forwardが受信すると予想されるものに応じて、単一のアイテムまたはタプルとして設定する必要があります。さらに、複数の異なる例でウォームアップしたい場合は、 multi_examplesを設定できます（ここにデモ）。
（c）この例は、 StableDiffusion Workerがクライアントの迅速な要求を直接撮影し、画像に応答する単一ステージサービスを示しています。したがって、 forward完全なサービスハンドラーと見なすことができます。ただし、パイプラインで異なる仕事をしている労働者（例えば、画像のダウンロード、モデル推論、後処理）を行うマルチステージサービスを設計することもできます。この場合、パイプライン全体がサービスハンドラーと見なされ、最初の労働者がリクエストを取り入れ、最後の労働者が回答を送信します。労働者間のデータフローは、プロセス間通信によって行われます。
（d）この例では動的バッチが有効になっているため、 forwardメソッドは、 ['a cute cat playing with a red ball', 'a man sitting in front of a computer', ...] 、バッチ推論のためにさまざまなクライアントから集約され、システムのスループットを改善することを望んでいます。

最後に、ワーカーをサーバーに追加して、単一段階のワークフローを構築します（複数のステージをパイプ化してスループットをさらに高め、この例を参照してください）、並列で実行するプロセス数（ num=1 max_wait_time=10 、および最大バッチサイズ（ max_batch_size=4 、最大数のリクエスト数がマクチュアで蓄積されます。 Millisecondsは、Mosecがワーカーにバッチを送信するまで待機する最も長い時間を意味します）。

 if __name__ == "__main__" :
    server = Server ()
    # 1) `num` specifies the number of processes that will be spawned to run in parallel.
    # 2) By configuring the `max_batch_size` with the value > 1, the input data in your
    # `forward` function will be a list (batch); otherwise, it's a single item.
    server . append_worker ( StableDiffusion , num = 1 , max_batch_size = 4 , max_wait_time = 10 )
    server . run ()

サーバーを実行します

私をクリックして、サーバーを実行して照会する方法を確認してください。

上記のスニペットは、サンプルファイルにマージされています。プロジェクトルートレベルで直接実行できます。最初にコマンドラインの引数を見てみましょう（ここでの説明）：

python examples/stable_diffusion/server.py --help

次に、デバッグログでサーバーを開始しましょう。

python examples/stable_diffusion/server.py --log-level debug --timeout 30000

http://127.0.0.1:8000/openapi/swagger/ブラウザでOpenapi Docを取得することを開きます。

そして別の端末で、それをテストしてください：

python examples/stable_diffusion/client.py --prompt " a cute cat playing with a red ball " --output cat.jpg --port 8000

現在のディレクトリに「cat.jpg」という名前の画像が表示されます。

メトリックを確認できます。

curl http://127.0.0.1:8000/metrics

それでおしまい！安定した拡散モデルをサービスとしてホストしました！

例

よりすぐに使用できる例は、セクションの例にあります。それは以下を含みます：

パイプライン：MLモデルがなくても、シンプルなエコーデモ。
リクエストの検証：タイプの注釈でリクエストを検証し、OpenAPIドキュメントを生成します。
複数のルート：1つのサービスで複数のモデルを提供します
埋め込みサービス：OpenAI互換埋め込みサービス
再ランキングサービス：クエリに基づいてパッセージのリストを再表示する
共有メモリIPC：共有メモリとのプロセス間通信。
カスタマイズされたGPU割り当て：それぞれ異なるGPUを使用して複数のレプリカを展開します。
カスタマイズされたメトリック：監視用の独自のメトリックを記録します。
Jaxは推論を指定します：Just-in-Timeコンピレーションは推論の速度を上げます。
圧縮：要求/応答圧縮を有効にします。
Pytorch Deep Learningモデル：
- 感情分析：文の感情を推測します。
- 画像認識：特定の画像を分類します。
- 安定した拡散：MSGPACKシリアル化を使用して、テキストに基づいて画像を生成します。

構成

動的バッチ
- max_batch_sizeおよびmax_wait_time (millisecond)は、 append_workerを呼び出すときに構成されています。
- max_batch_size値を使用して、GPUのメモリ外の原因を引き起こさないようにしてください。
- 通常、 max_wait_timeバッチ推論時間よりも短くする必要があります。
- 有効にすると、蓄積されたリクエストの数がmax_batch_sizeに到達した場合、またはmax_wait_timeが経過したときのいずれかでバッチを収集します。トラフィックが高い場合、この機能はこの機能の恩恵を受けます。
他の構成については、引数ドキュメントを確認してください。

展開

mosecがインストールされているGPUベース画像を探している場合は、公式画像mosecorg/mosecを確認できます。複雑なユースケースについては、Envdをご覧ください。
このサービスはGunicornやNginxを必要としませんが、必要に応じてIngressコントローラーを確実に使用できます。
このサービスは、複数のプロセスを制御するため、コンテナ内のPID 1プロセスである必要があります。 1つのコンテナで複数のプロセスを実行する必要がある場合は、スーパーバイザーが必要になります。スーパーバイザーまたはホラストを選択できます。
メトリックを収集することを忘れないでください。
- mosec_service_batch_size_bucket 、バッチサイズの分布を表示します。
- mosec_service_batch_duration_second_bucket 、各段階の各接続の動的バッチの持続時間を表示します（最初のタスクの受信から始まります）。
- mosec_service_process_duration_second_bucket 、各段階の各接続の処理時間を表示します（IPC時間を含むが、 mosec_service_batch_duration_second_bucketを除く）。
- mosec_service_remaining_taskは、現在処理されているタスクの数が表示されます。
- mosec_service_throughput 、サービススループットを表示します。
SIGINT （ CTRL+C ）またはSIGTERM （ kill {PID} ）でサービスを停止します。これは、優雅なシャットダウンロジックがあるためです。

パフォーマンスチューニング

推論サービスに最適なmax_batch_sizeとmax_wait_timeご覧ください。メトリックには、実際のバッチサイズとバッチ期間のヒストグラムが表示されます。これらは、これら2つのパラメーターを調整するための重要な情報です。
推論プロセス全体を別々のCPUおよびGPUステージ（REF Distilbert）に分割してみてください。さまざまなステージがデータパイプラインで実行され、GPUを忙しくします。
各段階の労働者数を調整することもできます。たとえば、パイプラインが前処理用のCPUステージとモデル推論用のGPUステージで構成されている場合、CPU段階の労働者の数を増やすと、GPU段階でモデル推論のためにバッチ処理されるデータをより多く生成することができます。 GPU段階の労働者を増やすと、GPUメモリと計算能力を完全に利用できます。両方の方法がより高いGPU利用に寄与する可能性があり、その結果、より高いサービススループットが生じます。
マルチステージサービスの場合、さまざまな段階を通過するデータはserialize_ipc/deserialize_ipcメソッドによってシリアル化/降下されることに注意してください。そのため、非常に大きなデータがパイプライン全体を遅くする可能性があります。シリアル化されたデータは、デフォルトでRustを介して次の段階に渡されます。共有メモリが潜在的にレイテンシを減らすことができます（REF RedissHMIPCMIXIN）。
適切なserialize/deserializeメソッドを選択する必要があります。これは、ユーザー要求をデコードして応答をエンコードするために使用されます。デフォルトでは、両方ともJSONを使用しています。ただし、画像と埋め込みはJSONによって十分にサポートされていません。より高速でバイナリ互換性のあるMSGPackを選択できます（REF安定拡散）。
OpenblasまたはMKLのスレッドを構成します。現在のPythonプロセスで使用される最も適切なCPUを選択できない場合があります。 ENV（REFカスタムGPU割り当て）を使用して、各ワーカーに設定できます。
クライアント側からHTTP/2を有効にします。 mosec 、V0.8.8以降、ユーザーのプロトコル（例：HTTP/2）に自動的に適応します。

採用者

MOSECを使用している企業や個々のユーザーの一部は次のとおりです。

ModelZ：ML推論用のサーバーレスプラットフォーム。
Moss：ChatGptのようなオープンソースの会話言語モデル。
TencentCloud：Tencent Cloud Machine Learningプラットフォーム。MoSecをコア推論サーバーフレームワークとして使用します。
テンソルコード：クラウドネイティブAIインフラストラクチャカンパニー。
OAT：オンラインLLMアライメントの報酬モデルを提供します。

引用

このソフトウェアがあなたの研究に役立つと思うなら、引用することを検討してください

 @software{yang2021mosec,
  title = {{MOSEC: Model Serving made Efficient in the Cloud}},
  author = {Yang, Keming and Liu, Zichen and Cheng, Philip},
  url = {https://github.com/mosecorg/mosec},
  year = {2021}
}