lolpop下载 - lolpop源代码下载

lolpop

其他源码

v0.2.0

下载

lolpop

一个软件工程框架以开始启动您的机器学习项目

认识Larry，Lolpop Dragon。

可以在此处访问完整的文档。

安装

您可以使用pip从PYPI安装LOLPOP：

pip install lolpop

如果您在开发模式下工作，则可以克隆此仓库，并通过cd安装LOLPOP到此目录并执行：

poetry install

欢迎来到lolpop！

什么是lolpop？

LOLPOP是用于机器学习工作流的软件工程框架。

总体目标是提供一个可以帮助统一数据科学和机器学习工程团队的框架。我们相信，通过建立一个标准的机器学习工作框架，团队可以更加干净地协作并提高生产力。

良好的系统设计对于软件开发至关重要，LOLPOP试图遵循以下原则。良好的系统设计将包含：

标准逻辑组件
稳定的API与组件交互
组件和API的规范实现
允许人们实施任何组件版本的可扩展性

此外，在构建LOLPOP时，请记住以下目标：

模块化是一流的设计概念。设计一个系统，可以根据需要轻松互换零件。
该系统是无限扩展的。如果您想编码，则可以编码。提供一个简单的过程来扩展系统中的功能。
抽象层提供可访问性。抽象的层次使用户可以构建工作流，而不会在实施细节中丢失。用户同样可以将粗糙的代码变成其他人可以简单地利用自己的工作流程（即使没有代码！）的东西。
提供声明性的经验。从开发工作流到生产/自动化工作流程通常在ML中笨拙。有一条良好的宣言经验的途径使这里的困难变得平滑。
在工作流程上进行写作和执行测试。事情常常脱离轨道。设计一个期望失败的系统，并在他们进入生产之前就可以轻松测试和捕获问题。
在CI/CD或ML输送平台上提供逻辑实现。使“环境意识”并直接集成到生产工具中变得容易。
启用智能默认值以进行用例加速。提供标准组件以开始构建工作流程，并允许开发人员为其他人想要使用其工作时设置推荐的默认值。
使开关费用最小。切换费用阻止团队做最适合他们的事情，而领导者通常会迫使变革。我们希望使转向新技术变得容易，并且很容易将现有的工作负载带入LOLPOP。进行现有的工作量应该是轻量重构练习。
开源。永永远远。
几乎所有其他事物都没有公开。被认为是用户采用灵活的系统。我们希望在这些指导原则中尽可能灵活。

关键概念

LOLPOP具有相对平坦的概念模型，其中包含三个主要资源以了解：

组件：LOLPOP中的核心集成。这些是直接与外部库合作的集成，以将一些功能引入工作流程，例如：训练模型，转换数据，编码功能，版本化资源等。
管道：在一个或多个组件上执行操作以完成工作流程的一部分。例如，模型培训管道可能具有方法train_model 。此方法将知道如何获取传入的数据，训练模型或一组模型，这些模型并返回获胜模型。此方法将在几个组件中起作用，例如功能编码器，模型培训师，超参数调谐器，元数据跟踪器和资源版本控制系统。
跑步者：协调管道中的操作，并且在必要时也可以在管道上工作。由于管道是独立的，因此管道之间坐标的主要方式将是层次结构的跑步者级别。预计跑步者将是用例依赖的。 IE培训管道（和相关的组件）可能足够抽象，可以在用例中使用，例如分类，回归，时间序列预测等，但是这些用例之间的跑步者可能会有所不同，因为它需要以不同的方式协调操作。跑步者中的方法通常执行端到端工作流程。

组件，管道和跑步者具有许多共同的特征。参考组件，管道和跑步者集时，我们会使用术语集成。

组件，管道和跑步者之间也有自然的等级结构：

跑步者可以有孩子的管道和组件。
管道可以有孩子组件。

它如何工作？

LOLPOP具有直接的开发工作流程。我们希望所有人都能使用令人愉快的使用！

首先：编写自己的组件或使用预制的组件：

 from lolpop . comonent import BaseComponent 
from catboost import CatBoostRegressor , CatBoostClassifier

class CatboostModelTrainer ( BaseComponent ): 

    def __init__ ( problem_type = None , params = {}, * args , ** kwargs ): 
        super (). __init__ ( * args , ** kwargs )

        if problem_type == "classification" : 
            self . model = CatBoostClassifier ( ** params )
        elif problem_type == "regression" : 
            self . model = CatBoostRegressor ( ** params )

    def fit ( self , data , * args , ** kwargs ):
        self . model . fit ( data [ "X_train" ], data [ "y_train" ])

        return self . model

    ...

然后，可以将组件在管道和跑步者工作流程中利用。这些工作流程不是参考特定组件类，而是设计用于使用通用组件类型，如下所示。

 from lolpop . pipeline import BasePipeline

class MyTrainingPipeline ( BasePipeline ): 
    ... 

    def train_model ( self , data , * args , ** kwargs ): 

        model = self . model_trainer . train_model ( data )

        return model    
    
    ...

然后，我们配置了在管道和跑步者配置中使用的类，如下所示：

 # runner config
pipeline : 
  train : MyTrainingPipeline
...

# pipelines config
train : 
  component : 
    model_trainer : CatBoostTrainer
  model_trainer : 
    config : 
        training_params : 
            iterations : 2 
            depth : 2 
            learning_rate : 1 
            loss_function : RMSE
...

最后，可以通过Python代码调用工作流程：

 from lolpop . extension import MyRunner

config_file = "/path/to/dev.yaml"

runner = MyRunner ( conf = config_file )

...

model = runner . train . train_model ( data )

...

或通过Lolpop CLI：

lolpop run workflow MyRunner --config-file /path/to/dev.yaml

如果您有兴趣构建自己的工作流，最好研究一些提供的示例，并研究扩展框架

为什么要LOLPOP？

长期以来，我们一直认为，ML生态系统缺乏一种工具来充当人们为成功执行生产用例所需要做的所有各种事情之间的胶水。 LOLPOP试图弥合这一差距 - 成为那种胶水。有关LOLPOP背后灵感的更多信息，请阅读我们的发布博客。

什么不是Lolpop？

有时，了解没有什么工具才能充分了解它是什么，这是有帮助的。描述“机器学习工作流的软件工程框架”可能有点钝，因此了解以下内容可能会有所帮助：

LOLPOP不是编排工具。实际上，您可能应该使用编目来运行使用LOLPOP创建的代码。您应该很容易地将您选择的编排工具与LOLPOP集成。
LOLPOP不是管道工具。那里有几种好的管道工具，您甚至可能想将它们与LOLPOP一起使用。例如，对于那些倾向于的人，我们有一个与LOLPOP一起使用Metaflow的示例。
LOLPOP不是元数据跟踪器，训练平台，实验铲球等。我们认为您应该拥有并使用这些。 LOLPOP将很乐意将它们作为组件，并让您将它们构建到工作流程中。

LOLPOP实际上什么也没做，它主要帮助您更快地编写ML工作流。您使用哪种工具来做到这一点尚未公开。