Download LightAutoML - Download do código -fonte LightAutoML

LightAutoML

Outro código-fonte

v0.3.0

Baixar

Lightautoml (LAMA) é uma estrutura automática do SBER AI LAB.

Ele fornece criação automática de modelos para as seguintes tarefas:

Classificação binária
Classificação multiclasse
regressão

A versão atual do pacote lida com conjuntos de dados que possuem amostras independentes em cada linha. Ou seja, cada linha é um objeto com seus recursos e destino específicos . Conjuntos de dados e sequências multitáveis são um trabalho em andamento :)

Nota : Usamos a Biblioteca AutoWoE para criar automaticamente modelos interpretáveis.

Autores : Alexander Ryzhkov, Anton Vakhrushev, Dmitry Simakov, Vasilii Bunakov, Rinchin Damdinov, Pavel Shvets, Alexander Kirilin.

A documentação do Lightautoml está disponível aqui, você também pode gerá -lo.

(Novo recurso) GPU Pipeline

Pipeline GPU completo para Lightautoml atualmente disponível para testes de desenvolvedores (ainda em andamento). O código e os tutoriais disponíveis aqui

Índice

Instalação LightAutoml da Pypi
Tour rápido
Recursos
Contribuindo para Lightautoml
Licença
Para desenvolvedores
Solicitações de suporte e recursos

Instalação

Para instalar a estrutura LAMA em sua máquina a partir da Pypi, execute os seguintes comandos:

 # Install base functionality:

pip install -U lightautoml

# For partial installation use corresponding option.
# Extra dependecies: [nlp, cv, report]
# Or you can use 'all' to install everything

pip install -U lightautoml[nlp]

Adicional, execute os seguintes comandos para ativar a geração de relatórios em PDF:

 # MacOS
brew install cairo pango gdk-pixbuf libffi

# Debian / Ubuntu
sudo apt-get install build-essential libcairo2 libpango-1.0-0 libpangocairo-1.0-0 libgdk-pixbuf2.0-0 libffi-dev shared-mime-info

# Fedora
sudo yum install redhat-rpm-config libffi-devel cairo pango gdk-pixbuf2

# Windows
# follow this tutorial https://weasyprint.readthedocs.io/en/stable/install.html#windows

De volta ao topo

Tour rápido

Vamos resolver a popular competição Kaggle Titanic abaixo. Existem duas maneiras principais de resolver problemas de aprendizado de máquina usando o Lightautoml:

Use predefinição pronta para dados tabulares:

 import pandas as pd
from sklearn . metrics import f1_score

from lightautoml . automl . presets . tabular_presets import TabularAutoML
from lightautoml . tasks import Task

df_train = pd . read_csv ( '../input/titanic/train.csv' )
df_test = pd . read_csv ( '../input/titanic/test.csv' )

automl = TabularAutoML (
    task = Task (
        name = 'binary' ,
        metric = lambda y_true , y_pred : f1_score ( y_true , ( y_pred > 0.5 ) * 1 ))
)
oof_pred = automl . fit_predict (
    df_train ,
    roles = { 'target' : 'Survived' , 'drop' : [ 'PassengerId' ]}
)
test_pred = automl . predict ( df_test )

pd . DataFrame ({
    'PassengerId' : df_test . PassengerId ,
    'Survived' : ( test_pred . data [:, 0 ] > 0.5 ) * 1
}). to_csv ( 'submit.csv' , index = False )

O Lighautoml Framework possui muitas peças prontas para uso e opções de personalização extensas, para saber mais, consulte a seção de recursos.

De volta ao topo

Recursos

Kaggle Kernel Exemplos de Uso LightAutoml:

Tabular Playground Series de abril de 2021 Solução da competição
Solução de competição Titanic (precisão de 80%)
Solução de competição do Titanic 12-Code Lines (precisão de 78%)
Solução de concorrência dos preços das casas
Processamento de linguagem natural com solução de tweets de desastres
Solução de competição de março de 2021
Tabular Playground Series de fevereiro de 2021 Solução da competição
Solução interpretável de WhiteBox
Elementos de pipeline ML personalizados dentro de todos os existentes

Tutoriais do Google Colab e outros exemplos:

Tutorial_1_basics.ipynb - Comece com o Lightautoml sobre dados tabulares.
Tutorial_2_WhiteBox_AutoWoE.ipynb - criando modelos interpretáveis.
Tutorial_3_sql_data_source.ipynb - mostra como usar as predefinições do LightAutoml (variantes autônomos e de tempo utilizadas) para resolver tarefas de ML em dados tabulares da base de dados SQL em vez de CSV.
Tutorial_4_NLP_Interpretation.ipynb - Exemplo de usar a predefinição TabularNLPautoml, limitextexPlainer.
Tutorial_5_uplift.ipynb - mostra como usar o LightaUtoml para uma tarefa de modelagem de elevação.
Tutorial_6_custom_pipeline.ipynb - mostra como criar seu próprio pipeline a partir de blocos especificados: oleodutos para geração e seleção de recursos, algoritmos ML, otimização de hiperparameter etc.
Tutorial_7_ICE_and_PDP_interpretation.ipynb - mostra como obter a interpretação local e global dos resultados do modelo usando abordagens de gelo e PDP.

Nota 1 : Para a produção, você não precisa usar o Profiler (que aumenta o tempo de trabalho e a consumo da memória), por isso, não o ligue - está em estado de fora por padrão

Nota 2 : Para dar uma olhada neste relatório após a execução, comente a última linha de demonstração com o comando de exclusão do relatório.

Cursos, vídeos e papéis

Cursos de Crash LightAutoml :
- Curso (russo) Automl para a Comunidade de OpenDatascience
Guias de vídeo :
- (Russo) Lightautoml Webinar para a comunidade Sberloga (Alexander Ryzhkov, Dmitry Simakov)
- (Russo) Tutorial prático de Lightautoml em Kaggle Kernels (Alexander Ryzhkov)
- (Inglês) Aprendizado de máquina automatizado com Lightautoml: Teoria e Prática (Alexander Ryzhkov)
- (Inglês) LightAutoml Framework Visão geral, referência e vantagens para os negócios (Alexander Ryzhkov)
- (Inglês) Guia prático da Lightautoml - ml predefinições de predefinições gerais (Dmitry Simakov)
Papéis :
- Anton Vakhrushev, Alexander Ryzhkov, Dmitry Simakov, Rinchin Damdinov, Maxim Savchenko, Alexander Tuzhilin "Lightautoml: Solução automática para um grande ecossistema de serviços financeiros". ARXIV: 2109.01528, 2021.
Artigos sobre LightAutoml :
- (Inglês) Lightautoml vs Titanic: 80% de precisão em várias linhas de código (médio)
- (Inglês) Guia prático do Python para Lightautoml-uma estrutura automática de criação de modelos de ML (analítica indiana analítica)

De volta ao topo

Contribuindo para Lightautoml

Se você estiver interessado em contribuir para o Lightautoml, leia o guia contribuinte para começar.

De volta ao topo

Licença

Este projeto está licenciado sob a licença Apache, versão 2.0. Consulte o arquivo de licença para obter mais detalhes.

De volta ao topo

Para desenvolvedores

Instalação do código -fonte

Primeiro de tudo, você precisa instalar git e poesia.

 # Load LAMA source code
git clone https://github.com/sberbank-ai-lab/LightAutoML.git

cd LightAutoML/

# !!!Choose only one item!!!

# 1. Global installation: Don't create virtual environment
poetry config virtualenvs.create false --local

# 2. Recommended: Create virtual environment inside your project directory
poetry config virtualenvs.in-project true

# For more information read poetry docs

# Install LAMA
poetry lock
poetry install

Crie seu próprio pipeline personalizado:

 import pandas as pd
from sklearn . metrics import f1_score

from lightautoml . automl . presets . tabular_presets import TabularAutoML
from lightautoml . tasks import Task

df_train = pd . read_csv ( '../input/titanic/train.csv' )
df_test = pd . read_csv ( '../input/titanic/test.csv' )

# define that machine learning problem is binary classification
task = Task ( "binary" )

reader = PandasToPandasReader ( task , cv = N_FOLDS , random_state = RANDOM_STATE )

# create a feature selector
model0 = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 64 ,
    'seed' : 42 , 'num_threads' : N_THREADS }
)
pipe0 = LGBSimpleFeatures ()
mbie = ModelBasedImportanceEstimator ()
selector = ImportanceCutoffSelector ( pipe0 , model0 , mbie , cutoff = 0 )

# build first level pipeline for AutoML
pipe = LGBSimpleFeatures ()
# stop after 20 iterations or after 30 seconds
params_tuner1 = OptunaTuner ( n_trials = 20 , timeout = 30 )
model1 = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 128 ,
    'seed' : 1 , 'num_threads' : N_THREADS }
)
model2 = BoostLGBM (
    default_params = { 'learning_rate' : 0.025 , 'num_leaves' : 64 ,
    'seed' : 2 , 'num_threads' : N_THREADS }
)
pipeline_lvl1 = MLPipeline ([
    ( model1 , params_tuner1 ),
    model2
], pre_selection = selector , features_pipeline = pipe , post_selection = None )

# build second level pipeline for AutoML
pipe1 = LGBSimpleFeatures ()
model = BoostLGBM (
    default_params = { 'learning_rate' : 0.05 , 'num_leaves' : 64 ,
    'max_bin' : 1024 , 'seed' : 3 , 'num_threads' : N_THREADS },
    freeze_defaults = True
)
pipeline_lvl2 = MLPipeline ([ model ], pre_selection = None , features_pipeline = pipe1 ,
 post_selection = None )

# build AutoML pipeline
automl = AutoML ( reader , [
    [ pipeline_lvl1 ],
    [ pipeline_lvl2 ],
], skip_conn = False )

# train AutoML and get predictions
oof_pred = automl . fit_predict ( df_train , roles = { 'target' : 'Survived' , 'drop' : [ 'PassengerId' ]})
test_pred = automl . predict ( df_test )

pd . DataFrame ({
    'PassengerId' : df_test . PassengerId ,
    'Survived' : ( test_pred . data [:, 0 ] > 0.5 ) * 1
}). to_csv ( 'submit.csv' , index = False )