LightAutoMLダウンロードLightAutoMLソースコードのダウンロード

LightAutoML

その他のソースコード

v0.3.0

ダウンロード

LightAutoml（LAMA）は、SBER AIラボによるAutomlフレームワークです。

次のタスクに自動モデル作成を提供します。

バイナリ分類
マルチクラス分類
回帰

パッケージの現在のバージョンは、各行に独立したサンプルがあるデータセットを処理します。 IE各行は、特定の機能とターゲットを備えたオブジェクトです。複数のデータセットとシーケンスは進行中の作業です:)

注： AutoWoEライブラリを使用して、解釈可能なモデルを自動的に作成します。

著者：Alexander Ryzhkov、Anton Vakhrushev、Dmitry Simakov、Vasilii Bunakov、Rinchin Damdinov、Pavel Shvets、Alexander Kirilin。

LightAutomlのドキュメントはこちらから入手できます。また、生成することもできます。

（新機能）GPUパイプライン

LightAutoml用の完全なGPUパイプラインは、現在開発者のテストに利用可能です（まだ進行中です）。ここで入手可能なコードとチュートリアル

インストール

Pypiからマシンにラマフレームワークをインストールするには、次のコマンドを実行します。

 # Install base functionality:

pip install -U lightautoml

# For partial installation use corresponding option.
# Extra dependecies: [nlp, cv, report]
# Or you can use 'all' to install everything

pip install -U lightautoml[nlp]

pdfレポート生成を有効にするために、次のコマンドを実行します。

 # MacOS
brew install cairo pango gdk-pixbuf libffi

# Debian / Ubuntu
sudo apt-get install build-essential libcairo2 libpango-1.0-0 libpangocairo-1.0-0 libgdk-pixbuf2.0-0 libffi-dev shared-mime-info

# Fedora
sudo yum install redhat-rpm-config libffi-devel cairo pango gdk-pixbuf2

# Windows
# follow this tutorial https://weasyprint.readthedocs.io/en/stable/install.html#windows

トップに戻ります

クイックツアー

以下の人気のあるKaggle Titanic Competitionを解決しましょう。 LightAutomlを使用して機械学習の問題を解決する主な方法は2つあります。

表形式データにReady Presetを使用してください。

 import pandas as pd
from sklearn . metrics import f1_score

from lightautoml . automl . presets . tabular_presets import TabularAutoML
from lightautoml . tasks import Task

df_train = pd . read_csv ( '../input/titanic/train.csv' )
df_test = pd . read_csv ( '../input/titanic/test.csv' )

automl = TabularAutoML (
    task = Task (
        name = 'binary' ,
        metric = lambda y_true , y_pred : f1_score ( y_true , ( y_pred > 0.5 ) * 1 ))
)
oof_pred = automl . fit_predict (
    df_train ,
    roles = { 'target' : 'Survived' , 'drop' : [ 'PassengerId' ]}
)
test_pred = automl . predict ( df_test )

pd . DataFrame ({
    'PassengerId' : df_test . PassengerId ,
    'Survived' : ( test_pred . data [:, 0 ] > 0.5 ) * 1
}). to_csv ( 'submit.csv' , index = False )

Lighautomlフレームワークには、すぐに使用できる部品と広範なカスタマイズオプションがあります。詳細については、リソースセクションをご覧ください。

トップに戻ります

リソース

kaggleカーネルlightautomlの使用例：

2021年4月の競争ソリューション
タイタニック競争ソリューション（80％の精度）
タイタニック12コードライン競争ソリューション（78％の精度）
住宅価格の競争ソリューション
災害ツイートソリューションによる自然言語処理
2021年3月のコンペティションソリューション
2021年2月の競争ソリューション
解釈可能なホワイトボックスソリューション
既存のもの内のカスタムMLパイプライン要素

Google Colabチュートリアルやその他の例：

Tutorial_1_basics.ipynb表形式データでLightAutomlを始めます。
Tutorial_2_WhiteBox_AutoWoE.ipynb解釈可能なモデルの作成。
Tutorial_3_sql_data_source.ipynb CSVの代わりにSQLデータベースから表のデータのMLタスクを解くために、LightAutomlプリセット（スタンドアロンと時間を使用したバリアントの両方）の使用方法を示します。
Tutorial_4_NLP_Interpretation.ipynb tabularnlpautoml preset、limetextexplainerの使用例。
Tutorial_5_uplift.ipynb上昇モデリングタスクにLightAutomlを使用する方法を示します。
Tutorial_6_custom_pipeline.ipynb指定されたブロックから独自のパイプラインを作成する方法を示しています：機能生成および機能選択のためのパイプライン、MLアルゴリズム、ハイパーパラメーターの最適化など。
Tutorial_7_ICE_and_PDP_interpretation.ipynb ICEおよびPDPアプローチを使用して、モデル結果のローカルおよびグローバルな解釈を取得する方法を示します。

注1 ：プロダクションの場合、プロファイラーを使用する必要はありません（作業時間とメモリの慰めを増やす）ので、それをオンにしないでください - デフォルトではオフステートにあります

注2 ：実行後にこのレポートを見るには、レポート削除コマンドを使用してデモの最後の行をコメントしてください。

コース、ビデオ、論文

LightAutomlクラッシュコース：
- （ロシア語）OpendatascienceコミュニティのためのAutomlコース
ビデオガイド：
- （ロシア語）SberlogaコミュニティのLightautoml Webinar（Alexander Ryzhkov、Dmitry Simakov）
- （ロシア語）Kaggle Kernels（Alexander Ryzhkov）のLightAutomlハンズオンチュートリアル
- （英語）LightAutomlを使用した自動機械学習：理論と実践（Alexander Ryzhkov）
- （英語）LightAutomlフレームワークの一般的な概要、ベンチマーク、ビジネスの利点（Alexander Ryzhkov）
- （英語）LightAutoml Practical Guide -ML Pipeline Presetsの概要（Dmitry Simakov）
論文：
- Anton Vakhrushev、Alexander Ryzhkov、Dmitry Simakov、Rinchin Damdinov、Maxim Savchenko、Alexander Tuzhilin "Lightautoml：大規模な金融サービスエコシステムのためのAutomlソリューション" Arxiv：2109.01528、2021。
LightAutomlに関する記事：
- （英語）lightautoml vsタイタニック：いくつかのコードラインの80％の精度（中）
- （英語）LightAutomlへの実践的なPythonガイド - 自動MLモデル作成フレームワーク（分析インドの雑誌）

トップに戻ります

LightAutomlに貢献

LightAutomlに貢献することに興味がある場合は、貢献ガイドを読んでください。

トップに戻ります

ライセンス

このプロジェクトは、バージョン2.0のApacheライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。

トップに戻ります

開発者向け

ソースコードからのインストール

まず、Gitと詩をインストールする必要があります。

 # Load LAMA source code
git clone https://github.com/sberbank-ai-lab/LightAutoML.git

cd LightAutoML/

# !!!Choose only one item!!!

# 1. Global installation: Don't create virtual environment
poetry config virtualenvs.create false --local

# 2. Recommended: Create virtual environment inside your project directory
poetry config virtualenvs.in-project true

# For more information read poetry docs

# Install LAMA
poetry lock
poetry install

独自のカスタムパイプラインを作成します：

 import pandas as pd
from sklearn . metrics import f1_score

from lightautoml . automl . presets . tabular_presets import TabularAutoML
from lightautoml . tasks import Task

df_train = pd . read_csv ( '../input/titanic/train.csv' )
df_test = pd . read_csv ( '../input/titanic/test.csv' )

# define that machine learning problem is binary classification
task = Task ( "binary" )

reader = PandasToPandasReader ( task , cv = N_FOLDS , random_state = RANDOM_STATE )

# create a feature selector
model0 = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 64 ,
    'seed' : 42 , 'num_threads' : N_THREADS }
)
pipe0 = LGBSimpleFeatures ()
mbie = ModelBasedImportanceEstimator ()
selector = ImportanceCutoffSelector ( pipe0 , model0 , mbie , cutoff = 0 )

# build first level pipeline for AutoML
pipe = LGBSimpleFeatures ()
# stop after 20 iterations or after 30 seconds
params_tuner1 = OptunaTuner ( n_trials = 20 , timeout = 30 )
model1 = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 128 ,
    'seed' : 1 , 'num_threads' : N_THREADS }
)
model2 = BoostLGBM (
    default_params = { 'learning_rate' : 0.025 , 'num_leaves' : 64 ,
    'seed' : 2 , 'num_threads' : N_THREADS }
)
pipeline_lvl1 = MLPipeline ([
    ( model1 , params_tuner1 ),
    model2
], pre_selection = selector , features_pipeline = pipe , post_selection = None )

# build second level pipeline for AutoML
pipe1 = LGBSimpleFeatures ()
model = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 64 ,
    'max_bin' : 1024 , 'seed' : 3 , 'num_threads' : N_THREADS },
    freeze_defaults = True
)
pipeline_lvl2 = MLPipeline ([ model ], pre_selection = None , features_pipeline = pipe1 ,
 post_selection = None )

# build AutoML pipeline
automl = AutoML ( reader , [
    [ pipeline_lvl1 ],
    [ pipeline_lvl2 ],
], skip_conn = False )

# train AutoML and get predictions
oof_pred = automl . fit_predict ( df_train , roles = { 'target' : 'Survived' , 'drop' : [ 'PassengerId' ]})
test_pred = automl . predict ( df_test )

pd . DataFrame ({
    'PassengerId' : df_test . PassengerId ,
    'Survived' : ( test_pred . data [:, 0 ] > 0.5 ) * 1
}). to_csv ( 'submit.csv' , index = False )

トップに戻ります

サポートと機能のリクエスト

Slack CommunityまたはTelegram Groupで迅速なアドバイスを求めてください。

GitHubの問題に関するバグレポートと機能リクエストを開きます。

拡大する

追加情報

バージョン v0.3.0
タイプその他のソースコード
更新時間 2025-04-18
サイズ 11.27MB
から Github

LightAutoML

（新機能）GPUパイプライン

目次

インストール

クイックツアー

リソース

kaggleカーネルlightautomlの使用例：

Google Colabチュートリアルやその他の例：

コース、ビデオ、論文

LightAutomlに貢献

ライセンス

開発者向け

ソースコードからのインストール

独自のカスタムパイプラインを作成します：

サポートと機能のリクエスト

Google Dorks

shepherd

mongo express

hidusbf

Free Algorithms Books

markdownpedia

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express