LightAutoML下载LightAutoML源代码下载

LightAutoML

其他源码

v0.3.0

下载

Lightautoml（Lama）是Sber AI实验室的汽车框架。

它为以下任务提供了自动模型创建：

二进制分类
多类分类
回归

该软件包的当前版本处理每行具有独立样本的数据集。即每一行都是具有其特定功能和目标的对象。多功能数据集和序列正在进行中:)

注意：我们使用AutoWoE库自动创建可解释的模型。

作者：Alexander Ryzhkov，Anton Vakhrushev，Dmitry Simakov，Vasilii Bunakov，Rinchin Damdinov，Pavel Shvets，Alexander Kirilin。

Lightautoml的文档可在此处获得，您也可以生成它。

（新功能）GPU管道

目前可用于开发人员测试的Lightautoml的完整GPU管道（仍在进行中）。这里可用的代码和教程

安装

要通过PYPI在计算机上安装LAMA框架，请执行以下命令：

 # Install base functionality:

pip install -U lightautoml

# For partial installation use corresponding option.
# Extra dependecies: [nlp, cv, report]
# Or you can use 'all' to install everything

pip install -U lightautoml[nlp]

额外，运行以下命令以启用PDF报告生成：

 # MacOS
brew install cairo pango gdk-pixbuf libffi

# Debian / Ubuntu
sudo apt-get install build-essential libcairo2 libpango-1.0-0 libpangocairo-1.0-0 libgdk-pixbuf2.0-0 libffi-dev shared-mime-info

# Fedora
sudo yum install redhat-rpm-config libffi-devel cairo pango gdk-pixbuf2

# Windows
# follow this tutorial https://weasyprint.readthedocs.io/en/stable/install.html#windows

回到顶部

快速游览

让我们在下面解决流行的Kaggle Titanic竞赛。使用Lightautoml有两种主要方法来解决机器学习问题：

使用现成的预设进行表格数据：

 import pandas as pd
from sklearn . metrics import f1_score

from lightautoml . automl . presets . tabular_presets import TabularAutoML
from lightautoml . tasks import Task

df_train = pd . read_csv ( '../input/titanic/train.csv' )
df_test = pd . read_csv ( '../input/titanic/test.csv' )

automl = TabularAutoML (
    task = Task (
        name = 'binary' ,
        metric = lambda y_true , y_pred : f1_score ( y_true , ( y_pred > 0.5 ) * 1 ))
)
oof_pred = automl . fit_predict (
    df_train ,
    roles = { 'target' : 'Survived' , 'drop' : [ 'PassengerId' ]}
)
test_pred = automl . predict ( df_test )

pd . DataFrame ({
    'PassengerId' : df_test . PassengerId ,
    'Survived' : ( test_pred . data [:, 0 ] > 0.5 ) * 1
}). to_csv ( 'submit.csv' , index = False )

Lighautoml Framework具有许多现成的零件和广泛的自定义选项，以了解更多信息，请查看资源部分。

回到顶部

资源

Kaggle内核用法的示例：

表格游乐场系列2021年4月竞赛解决方案
泰坦尼克号竞争解决方案（精度为80％）
泰坦尼克号12代码竞赛解决方案（精度为78％）
房价竞争解决方案
使用灾难推文解决方案进行自然语言处理
表格游乐场系列2021年3月竞赛解决方案
表格游乐场系列2021年2月竞赛解决方案
可解释的白盒解决方案
自定义ML管道元素现有元素

Google Colab教程和其他示例：

Tutorial_1_basics.ipynb从表格数据上开始使用Lightautoml。
Tutorial_2_WhiteBox_AutoWoE.ipynb创建可解释的模型。
Tutorial_3_sql_data_source.ipynb展示了如何使用lightautoml预设（既独立和使用的变体）来从SQL数据库而不是CSV求解ML任务。
Tutorial_4_NLP_Interpretation.ipynb使用tabularnlpautoml预设，limetextexplainer的示例。
Tutorial_5_uplift.ipynb显示了如何使用Lightautoml进行提升模型任务。
Tutorial_6_custom_pipeline.ipynb显示如何从指定块中创建自己的管道：用于特征生成和功能选择的管道，ML算法，超参数优化等。
Tutorial_7_ICE_and_PDP_interpretation.ipynb显示了如何使用ICE和PDP方法获得模型结果的本地和全局解释。

注1 ：对于生产，您无需使用Profiler（这会增加工作时间和内存完善），因此请不要打开它 - 默认情况下处于OFF状态

注2 ：要在运行后查看此报告，请用报告删除命令对演示的最后一行。

课程，视频和论文

Lightautoml碰撞课程：
- （俄罗斯）OpenDataSciencience社区的汽车课程
视频指南：
- （俄语）Sberloga社区的Lightautoml网络研讨会（Alexander Ryzhkov，Dmitry Simakov）
- （俄语）Kaggle内核（Alexander Ryzhkov）的Lightautoml动手教程
- （英语）使用Lightautoml的自动化机器学习：理论与实践（Alexander Ryzhkov）
- （英语）Lightautoml框架一般概述，商业基准和优势（Alexander Ryzhkov）
- （英语）Lightautoml实用指南-ML管道预设概述（Dmitry Simakov）
论文：
- Anton Vakhrushev，Alexander Ryzhkov，Dmitry Simakov，Rinchin Damdinov，Maxim Savchenko，Alexander Tuzhilin“ Lightautoml：用于大型金融服务生态系统的Automl解决方案”。 Arxiv：2109.01528，2021。
有关Lightautoml的文章：
- （英语）Lightautoml vs泰坦尼克号：几行代码（中）的精度为80％
- （英语）python灯塔指南 - 自动ML模型创建框架（Analytic Indian Mag）

回到顶部

促成Lightautoml

如果您有兴趣为Lightautoml做出贡献，请阅读《入门贡献指南》。

回到顶部

执照

该项目是根据Apache许可证的2.0版获得许可的。有关更多详细信息，请参见许可证文件。

回到顶部

对于开发人员

源代码安装

首先，您需要安装GIT和诗歌。

 # Load LAMA source code
git clone https://github.com/sberbank-ai-lab/LightAutoML.git

cd LightAutoML/

# !!!Choose only one item!!!

# 1. Global installation: Don't create virtual environment
poetry config virtualenvs.create false --local

# 2. Recommended: Create virtual environment inside your project directory
poetry config virtualenvs.in-project true

# For more information read poetry docs

# Install LAMA
poetry lock
poetry install

构建自己的自定义管道：

 import pandas as pd
from sklearn . metrics import f1_score

from lightautoml . automl . presets . tabular_presets import TabularAutoML
from lightautoml . tasks import Task

df_train = pd . read_csv ( '../input/titanic/train.csv' )
df_test = pd . read_csv ( '../input/titanic/test.csv' )

# define that machine learning problem is binary classification
task = Task ( "binary" )

reader = PandasToPandasReader ( task , cv = N_FOLDS , random_state = RANDOM_STATE )

# create a feature selector
model0 = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 64 ,
    'seed' : 42 , 'num_threads' : N_THREADS }
)
pipe0 = LGBSimpleFeatures ()
mbie = ModelBasedImportanceEstimator ()
selector = ImportanceCutoffSelector ( pipe0 , model0 , mbie , cutoff = 0 )

# build first level pipeline for AutoML
pipe = LGBSimpleFeatures ()
# stop after 20 iterations or after 30 seconds
params_tuner1 = OptunaTuner ( n_trials = 20 , timeout = 30 )
model1 = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 128 ,
    'seed' : 1 , 'num_threads' : N_THREADS }
)
model2 = BoostLGBM (
    default_params = { 'learning_rate' : 0.025 , 'num_leaves' : 64 ,
    'seed' : 2 , 'num_threads' : N_THREADS }
)
pipeline_lvl1 = MLPipeline ([
    ( model1 , params_tuner1 ),
    model2
], pre_selection = selector , features_pipeline = pipe , post_selection = None )

# build second level pipeline for AutoML
pipe1 = LGBSimpleFeatures ()
model = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 64 ,
    'max_bin' : 1024 , 'seed' : 3 , 'num_threads' : N_THREADS },
    freeze_defaults = True
)
pipeline_lvl2 = MLPipeline ([ model ], pre_selection = None , features_pipeline = pipe1 ,
 post_selection = None )

# build AutoML pipeline
automl = AutoML ( reader , [
    [ pipeline_lvl1 ],
    [ pipeline_lvl2 ],
], skip_conn = False )

# train AutoML and get predictions
oof_pred = automl . fit_predict ( df_train , roles = { 'target' : 'Survived' , 'drop' : [ 'PassengerId' ]})
test_pred = automl . predict ( df_test )

pd . DataFrame ({
    'PassengerId' : df_test . PassengerId ,
    'Survived' : ( test_pred . data [:, 0 ] > 0.5 ) * 1
}). to_csv ( 'submit.csv' , index = False )

回到顶部

支持和功能请求

在Slack Community或Telegram Group中寻求及时的建议。

打开有关GitHub问题的错误报告和功能请求。

展开

附加信息

版本 v0.3.0
类型其他源码
更新时间 2025-04-18
大小 11.27MB
来自于 Github

LightAutoML

（新功能）GPU管道

目录

安装

快速游览

资源

Kaggle内核用法的示例：

Google Colab教程和其他示例：

课程，视频和论文

促成Lightautoml

执照

对于开发人员

源代码安装

构建自己的自定义管道：

支持和功能请求

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express