mosec下载 - mosec源代码下载

mosec

Ai源码

0.9.0

下载

mosec

检查状态

模型服务在云中有效。

介绍

mosec

MOSEC是用于构建ML模型的后端和微服务的高性能和灵活的模型。它弥合了刚训练的任何机器学习模型与有效的在线服务API之间的差距。

高性能：用Rust构建的Web层和任务协调？除了由异步I/O提供动力的有效CPU利用率外，哪个提供了巨大的速度
易用性：用户界面纯粹是在Python中？，哪些用户可以使用与离线测试相同的代码以ML框架 - 不可能的方式服务其模型
动态批处理：来自不同用户的汇总请求批处理推断和分发结果
管道阶段：产生多个输送阶段的过程以处理CPU/GPU/IO混合工作负载
云友好：设计用于在云中运行，模型热身，优雅的关闭和普罗米修斯监视指标，可轻松由Kubernetes或任何集装箱编排系统管理
做一件好事：专注于在线服务零件，用户可以注意模型优化和业务逻辑

安装

MOSEC需要Python 3.7或更高。使用：

pip install -U mosec
# or install with conda
conda install conda-forge::mosec

要从源代码构建，请安装Rust并运行以下命令：

make package

您将在dist文件夹中获得MOSEC车轮文件。

用法

我们演示了MOSEC如何帮助您轻松托管预先训练的稳定扩散模型作为服务。您需要将扩散器和变压器作为先决条件：

pip install --upgrade diffusers[torch] transformers

写服务器

单击我以获取使用说明的服务器代码。

首先，我们导入库并设置一个基本的记录仪，以更好地观察发生的事情。

 from io import BytesIO
from typing import List

import torch  # type: ignore
from diffusers import StableDiffusionPipeline  # type: ignore

from mosec import Server , Worker , get_logger
from mosec . mixin import MsgpackMixin

logger = get_logger ()

然后，我们为客户构建一个API ，以查询文本提示，并仅以3个步骤获得基于稳定的扩散-V1-5模型的图像。

将您的服务定义为继承mosec.Worker类。在这里，我们还继承了MsgpackMixin ，以采用MSGPACK序列化格式^（a）。
在__init__方法内，初始化模型并将其放在相应的设备上。您可以选择地分配self.example用一些数据进行热身^（b）模型。请注意，数据应与处理程序的输入格式兼容，我们接下来会详细介绍。
覆盖编写您的服务处理程序^（C） forward方法，并以签名forward(self, data: Any | List[Any]) -> Any | List[Any] 。接收/返回单个项目或元组取决于是否配置了动态批处理^（D）。

 class StableDiffusion ( MsgpackMixin , Worker ):
    def __init__ ( self ):
        self . pipe = StableDiffusionPipeline . from_pretrained (
            "sd-legacy/stable-diffusion-v1-5" , torch_dtype = torch . float16
        )
        self . pipe . enable_model_cpu_offload ()
        self . example = [ "useless example prompt" ] * 4  # warmup (batch_size=4)

    def forward ( self , data : List [ str ]) -> List [ memoryview ]:
        logger . debug ( "generate images for %s" , data )
        res = self . pipe ( data )
        logger . debug ( "NSFW: %s" , res [ 1 ])
        images = []
        for img in res [ 0 ]:
            dummy_file = BytesIO ()
            img . save ( dummy_file , format = "JPEG" )
            images . append ( dummy_file . getbuffer ())
        return images

[！笔记]
（a）在此示例中，我们以二进制格式返回图像，而JSON不支持该图像（除非用base64编码使有效负载更大的base64）。因此，MSGPACK更适合我们的需求。如果我们不继承MsgpackMixin ，则默认情况下将使用JSON。换句话说，服务请求/响应的协议可以是MSGPACK，JSON或任何其他格式（检查我们的Mixins）。
（b）热身通常有助于提前分配GPU记忆。如果指定了热身示例，则只有在示例通过处理程序转发后才准备就绪。但是，如果没有给出示例，则预计第一个请求的延迟将更长。该example应根据forward期望接收的方式设置为单个项目或元组。此外，如果您想使用多个不同的示例进行热身，则可以设置multi_examples （此处的演示）。
（c）此示例显示了一个单阶段服务，在该服务中， StableDiffusion Worker直接接收客户的提示请求并响应图像。因此， forward可以将其视为完整的服务处理程序。但是，我们还可以在管道中设计多个阶段服务（例如，下载图像，模型推理，后处理）的工人。在这种情况下，整个管道被视为服务处理程序，第一位工人接受了请求，最后一名工人发送了答复。工人之间的数据流是通过过程间通信完成的。
（d）由于在此示例中启用了动态批处理，因此， forward方法将希望收到字符串的列表，例如['a cute cat playing with a red ball', 'a man sitting in front of a computer', ...] ，从不同的客户端汇总进行批处理推断，改善了系统吞吐量。

最后，我们将工人附加到服务器上以构建单个阶段的工作流程（可以输送多个阶段以进一步提高吞吐量，请参见此示例），并指定我们希望其以并行运行的过程数（ num=1 ），最大批次大小，最大批次= 4（ max_batch_size=4 ），与最大的限制为time time time time tirn interim max_wait_time=10 interime;毫秒，这意味着最长的MOSEC等待，直到将批量发送给工人）。

 if __name__ == "__main__" :
    server = Server ()
    # 1) `num` specifies the number of processes that will be spawned to run in parallel.
    # 2) By configuring the `max_batch_size` with the value > 1, the input data in your
    # `forward` function will be a list (batch); otherwise, it's a single item.
    server . append_worker ( StableDiffusion , num = 1 , max_batch_size = 4 , max_wait_time = 10 )
    server . run ()

运行服务器

单击我查看如何运行和查询服务器。

以上片段在我们的示例文件中合并。您可以直接在项目根级别上运行。我们首先查看命令行参数（这里说明）：

python examples/stable_diffusion/server.py --help

然后，让我们从调试日志开始服务器：

python examples/stable_diffusion/server.py --log-level debug --timeout 30000

打开http://127.0.0.1:8000/openapi/swagger/在您的浏览器中获取OpenAPI DOC。

在另一个终端中，对其进行测试：

python examples/stable_diffusion/client.py --prompt " a cute cat playing with a red ball " --output cat.jpg --port 8000

您将在当前目录中获得名为“ cat.jpg”的图像。

您可以检查指标：

curl http://127.0.0.1:8000/metrics

就是这样！您刚刚托管了稳定的扩散模型作为服务！

例子

可以在示例部分中找到更多的现成示例。它包括：

管道：即使没有任何ML模型，也是一个简单的回声演示。
请求验证：用类型注释验证请求并生成OpenAPI文档。
多个路线：在一项服务中提供多个模型
嵌入服务：OpenAI兼容嵌入式服务
RERANKING SERVICE：RERANK基于查询的段落列表
共享内存IPC：与共享内存的过程间通信。
自定义的GPU分配：部署多个复制品，每个复制品都使用不同的GPU。
定制指标：记录您自己的指标以进行监视。
jax键入推理：即时汇编速度加快了推理。
压缩：启用请求/响应压缩。
Pytorch深度学习模型：
- 情感分析：推断句子的情感。
- 图像识别：对给定的图像进行分类。
- 稳定扩散：基于文本生成图像，并使用MSGPACK序列化生成图像。

配置

动态批处理
- 拨打append_worker时，将配置max_batch_size和max_wait_time (millisecond) 。
- 确保使用max_batch_size值推断不会导致GPU中的内存。
- 通常， max_wait_time应小于批处理推理时间。
- 如果启用，当累计请求的数量到达max_batch_size或max_wait_time经过时，它将收集批处理。当流量较高时，该服务将从此功能中受益。
检查参数文档中是否有其他配置。

部署

如果您正在使用已安装mosec的GPU基础图像，则可以检查官方图像mosecorg/mosec 。对于复杂的用例，请查看Envd。
该服务不需要枪支或NGINX，但是您可以在必要时使用Ingress控制器。
该服务应该是容器中的PID 1过程，因为它控制了多个过程。如果您需要在一个容器中运行多个进程，则需要一个主管。您可以选择主管或Horust。
记住要收集指标。
- mosec_service_batch_size_bucket显示批处理大小分布。
- mosec_service_batch_duration_second_bucket显示每个阶段中每个连接的动态批次持续时间（从接收第一个任务开始）。
- mosec_service_process_duration_second_bucket显示每个阶段中每个连接的处理持续时间（包括IPC时间，但不包括mosec_service_batch_duration_second_bucket ）。
- mosec_service_remaining_task显示当前处理任务的数量。
- mosec_service_throughput显示服务吞吐量。
使用SIGINT （ CTRL+C ）或SIGTERM （ kill {PID} ）停止服务，因为它具有优美的关闭逻辑。

性能调整

为推理服务找到最佳的max_batch_size和max_wait_time 。指标将显示真实批处理大小和批处理持续时间的直方图。这些是调整这两个参数的关键信息。
尝试将整个推理过程分为单独的CPU和GPU阶段（Ref Distilbert）。不同阶段将在数据管道中运行，这将使GPU忙碌。
您还可以调整每个阶段的工人人数。例如，如果您的管道包括用于预处理预处理的CPU阶段和用于模型推断的GPU阶段，则增加CPU阶段工人的数量可以帮助产生更多的数据，以在GPU阶段进行批处理以进行模型推断；增加GPU级工人可以充分利用GPU内存和计算能力。两种方式都可能有助于更高的GPU利用率，从而导致更高的服务吞吐量。
对于多阶段服务，请注意，通过不同阶段的数据将通过serialize_ipc/deserialize_ipc方法进行序列化/应对，因此非常大的数据可能会使整个管道慢速。默认情况下，序列化数据将通过RUST传递到下一阶段，您可以启用共享内存以减少潜伏期（参考Redisshmipcmixin）。
您应该选择适当的serialize/deserialize方法，该方法用于解码用户请求并编码响应。默认情况下，两者都使用JSON。但是，JSON并不能很好地支持图像和嵌入。您可以选择更快，二进制兼容的MSGPACK（参考稳定扩散）。
为开放式布拉斯或MKL配置线程。它可能无法选择当前Python过程使用的最合适的CPU。您可以使用Env（参考自定义GPU分配）为每个工人配置它。
从客户端启用HTTP/2。 mosec自V0.8.8以自动适应用户协议（例如，http/2）。

采用者

以下是使用MOSEC的一些公司和个人用户：

ModelZ：用于ML推理的无服务器平台。
苔藓：诸如chatgpt之类的开源对话语言模型。
TencentCloud：使用MOSEC作为核心推理服务器框架，腾讯云机学习平台。
Tensorchord：云本地AI基础设施公司。
燕麦：为在线LLM Alignment提供奖励模型。

引用

如果您发现此软件对您的研究有用，请考虑引用

 @software{yang2021mosec,
  title = {{MOSEC: Model Serving made Efficient in the Cloud}},
  author = {Yang, Keming and Liu, Zichen and Cheng, Philip},
  url = {https://github.com/mosecorg/mosec},
  year = {2021}
}