LightAutoML下載LightAutoML源代碼下載

LightAutoML

其他源碼

v0.3.0

下載

Lightautoml（Lama）是Sber AI實驗室的汽車框架。

它為以下任務提供了自動模型創建：

二進制分類
多類分類
回歸

該軟件包的當前版本處理每行具有獨立樣本的數據集。即每一行都是具有其特定功能和目標的對象。多功能數據集和序列正在進行中:)

注意：我們使用AutoWoE庫自動創建可解釋的模型。

作者：Alexander Ryzhkov，Anton Vakhrushev，Dmitry Simakov，Vasilii Bunakov，Rinchin Damdinov，Pavel Shvets，Alexander Kirilin。

Lightautoml的文檔可在此處獲得，您也可以生成它。

（新功能）GPU管道

目前可用於開發人員測試的Lightautoml的完整GPU管道（仍在進行中）。這裡可用的代碼和教程

安裝

要通過PYPI在計算機上安裝LAMA框架，請執行以下命令：

 # Install base functionality:

pip install -U lightautoml

# For partial installation use corresponding option.
# Extra dependecies: [nlp, cv, report]
# Or you can use 'all' to install everything

pip install -U lightautoml[nlp]

額外，運行以下命令以啟用PDF報告生成：

 # MacOS
brew install cairo pango gdk-pixbuf libffi

# Debian / Ubuntu
sudo apt-get install build-essential libcairo2 libpango-1.0-0 libpangocairo-1.0-0 libgdk-pixbuf2.0-0 libffi-dev shared-mime-info

# Fedora
sudo yum install redhat-rpm-config libffi-devel cairo pango gdk-pixbuf2

# Windows
# follow this tutorial https://weasyprint.readthedocs.io/en/stable/install.html#windows

回到頂部

快速遊覽

讓我們在下面解決流行的Kaggle Titanic競賽。使用Lightautoml有兩種主要方法來解決機器學習問題：

使用現成的預設進行表格數據：

 import pandas as pd
from sklearn . metrics import f1_score

from lightautoml . automl . presets . tabular_presets import TabularAutoML
from lightautoml . tasks import Task

df_train = pd . read_csv ( '../input/titanic/train.csv' )
df_test = pd . read_csv ( '../input/titanic/test.csv' )

automl = TabularAutoML (
    task = Task (
        name = 'binary' ,
        metric = lambda y_true , y_pred : f1_score ( y_true , ( y_pred > 0.5 ) * 1 ))
)
oof_pred = automl . fit_predict (
    df_train ,
    roles = { 'target' : 'Survived' , 'drop' : [ 'PassengerId' ]}
)
test_pred = automl . predict ( df_test )

pd . DataFrame ({
    'PassengerId' : df_test . PassengerId ,
    'Survived' : ( test_pred . data [:, 0 ] > 0.5 ) * 1
}). to_csv ( 'submit.csv' , index = False )

Lighautoml Framework具有許多現成的零件和廣泛的自定義選項，以了解更多信息，請查看資源部分。

回到頂部

資源

Kaggle內核用法的示例：

表格遊樂場系列2021年4月競賽解決方案
泰坦尼克號競爭解決方案（精度為80％）
泰坦尼克號12代碼競賽解決方案（精度為78％）
房價競爭解決方案
使用災難推文解決方案進行自然語言處理
表格遊樂場系列2021年3月競賽解決方案
表格遊樂場系列2021年2月競賽解決方案
可解釋的白盒解決方案
自定義ML管道元素現有元素

Google Colab教程和其他示例：

Tutorial_1_basics.ipynb從表格數據上開始使用Lightautoml。
Tutorial_2_WhiteBox_AutoWoE.ipynb創建可解釋的模型。
Tutorial_3_sql_data_source.ipynb展示瞭如何使用lightautoml預設（既獨立和使用的變體）來從SQL數據庫而不是CSV求解ML任務。
Tutorial_4_NLP_Interpretation.ipynb使用tabularnlpautoml預設，limetextexplainer的示例。
Tutorial_5_uplift.ipynb顯示瞭如何使用Lightautoml進行提升模型任務。
Tutorial_6_custom_pipeline.ipynb顯示如何從指定塊中創建自己的管道：用於特徵生成和功能選擇的管道，ML算法，超參數優化等。
Tutorial_7_ICE_and_PDP_interpretation.ipynb顯示瞭如何使用ICE和PDP方法獲得模型結果的本地和全局解釋。

注1 ：對於生產，您無需使用Profiler（這會增加工作時間和內存完善），因此請不要打開它 - 默認情況下處於OFF狀態

注2 ：要在運行後查看此報告，請用報告刪除命令對演示的最後一行。

課程，視頻和論文

Lightautoml碰撞課程：
- （俄羅斯）OpenDataSciencience社區的汽車課程
視頻指南：
- （俄語）Sberloga社區的Lightautoml網絡研討會（Alexander Ryzhkov，Dmitry Simakov）
- （俄語）Kaggle內核（Alexander Ryzhkov）的Lightautoml動手教程
- （英語）使用Lightautoml的自動化機器學習：理論與實踐（Alexander Ryzhkov）
- （英語）Lightautoml框架一般概述，商業基準和優勢（Alexander Ryzhkov）
- （英語）Lightautoml實用指南-ML管道預設概述（Dmitry Simakov）
論文：
- Anton Vakhrushev，Alexander Ryzhkov，Dmitry Simakov，Rinchin Damdinov，Maxim Savchenko，Alexander Tuzhilin“ Lightautoml：用於大型金融服務生態系統的Automl解決方案”。 Arxiv：2109.01528，2021。
有關Lightautoml的文章：
- （英語）Lightautoml vs泰坦尼克號：幾行代碼（中）的精度為80％
- （英語）python燈塔指南 - 自動ML模型創建框架（Analytic Indian Mag）

回到頂部

促成Lightautoml

如果您有興趣為Lightautoml做出貢獻，請閱讀《入門貢獻指南》。

回到頂部

執照

該項目是根據Apache許可證的2.0版獲得許可的。有關更多詳細信息，請參見許可證文件。

回到頂部

對於開發人員

源代碼安裝

首先，您需要安裝GIT和詩歌。

 # Load LAMA source code
git clone https://github.com/sberbank-ai-lab/LightAutoML.git

cd LightAutoML/

# !!!Choose only one item!!!

# 1. Global installation: Don't create virtual environment
poetry config virtualenvs.create false --local

# 2. Recommended: Create virtual environment inside your project directory
poetry config virtualenvs.in-project true

# For more information read poetry docs

# Install LAMA
poetry lock
poetry install

構建自己的自定義管道：

 import pandas as pd
from sklearn . metrics import f1_score

from lightautoml . automl . presets . tabular_presets import TabularAutoML
from lightautoml . tasks import Task

df_train = pd . read_csv ( '../input/titanic/train.csv' )
df_test = pd . read_csv ( '../input/titanic/test.csv' )

# define that machine learning problem is binary classification
task = Task ( "binary" )

reader = PandasToPandasReader ( task , cv = N_FOLDS , random_state = RANDOM_STATE )

# create a feature selector
model0 = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 64 ,
    'seed' : 42 , 'num_threads' : N_THREADS }
)
pipe0 = LGBSimpleFeatures ()
mbie = ModelBasedImportanceEstimator ()
selector = ImportanceCutoffSelector ( pipe0 , model0 , mbie , cutoff = 0 )

# build first level pipeline for AutoML
pipe = LGBSimpleFeatures ()
# stop after 20 iterations or after 30 seconds
params_tuner1 = OptunaTuner ( n_trials = 20 , timeout = 30 )
model1 = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 128 ,
    'seed' : 1 , 'num_threads' : N_THREADS }
)
model2 = BoostLGBM (
    default_params = { 'learning_rate' : 0.025 , 'num_leaves' : 64 ,
    'seed' : 2 , 'num_threads' : N_THREADS }
)
pipeline_lvl1 = MLPipeline ([
    ( model1 , params_tuner1 ),
    model2
], pre_selection = selector , features_pipeline = pipe , post_selection = None )

# build second level pipeline for AutoML
pipe1 = LGBSimpleFeatures ()
model = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 64 ,
    'max_bin' : 1024 , 'seed' : 3 , 'num_threads' : N_THREADS },
    freeze_defaults = True
)
pipeline_lvl2 = MLPipeline ([ model ], pre_selection = None , features_pipeline = pipe1 ,
 post_selection = None )

# build AutoML pipeline
automl = AutoML ( reader , [
    [ pipeline_lvl1 ],
    [ pipeline_lvl2 ],
], skip_conn = False )

# train AutoML and get predictions
oof_pred = automl . fit_predict ( df_train , roles = { 'target' : 'Survived' , 'drop' : [ 'PassengerId' ]})
test_pred = automl . predict ( df_test )

pd . DataFrame ({
    'PassengerId' : df_test . PassengerId ,
    'Survived' : ( test_pred . data [:, 0 ] > 0.5 ) * 1
}). to_csv ( 'submit.csv' , index = False )