hyperparameter_hunter Download - hyperparameter_hunter исходный код скачать

hyperparameter_hunter

Другой исходный код

v3.0.0 (Artemis)

Скачать

HyperparameterHunter

Обзор гиперпараметрии

Автоматически сохранять и учиться на результатах эксперимента, что приводит к долгосрочной, постоянной оптимизации, которая запоминает все ваши тесты.

HyperparameterHunter предоставляет обертку для алгоритмов машинного обучения, которая экономит все важные данные. Упростите процесс настройки экспериментов и гиперпараметрической настройки, позволив гиперпараметрическому тунтеру выполнять усердную работу по записи, организации и обучению из ваших тестов - при этом используя те же библиотеки, которые вы уже делаете. Не позволяйте ни одного из ваших экспериментов проходить трату и начинайте делать оптимизацию гиперпараметрии такими, какими она должна была быть.

Установка: pip install hyperparameter-hunter
Источник: https://github.com/huntermcgushion/hyperparameter_hunter
Документация: https://hyperparameter-hunter.readthedocs.io

Функции

Автоматически записывать результаты эксперимента
По -настоящему информированная оптимизация гиперпараметрической, которая автоматически использует прошлые эксперименты
Устранение кода паттерного пластина для петли перекрестной проверки, прогнозирования и оценки
Перестаньте беспокоиться о том, чтобы отслеживать гиперпараметра, результаты или повторные эксперименты
Используйте библиотеки и утилиты, которые вам уже любите

Как использовать HyperparameterHunter

Не думайте о HyperparameterHunter как о еще одной библиотеке оптимизации, которую вы выявляете только тогда, когда пришло время выполнять оптимизацию гиперпараметрии. Конечно, он делает оптимизацию, но лучше рассматривать гиперпараметтер -тунтер как ваш инструмент/помощник по собственному машинному обучению.

Идея состоит в том, чтобы сразу же начать использовать HyperparameterHunter. Запустите все свои контрольные/одноразовые эксперименты через это.

Чем больше вы используете HyperparameterHunter, тем лучше будут ваши результаты. Если вы просто используете его для оптимизации, конечно, он сделает то, что вы хотите, но в этом не хватает точки гиперпараметрического тунтера.

Если вы использовали его для экспериментов и оптимизации на протяжении всего курса вашего проекта, то, когда вы решаете выполнять оптимизацию гиперпараметра, HyperparameterHunter уже знает обо всем, что вы сделали, и именно тогда HyperparameterHunter делает что -то замечательное. Он не начинает оптимизировать с нуля, как другие библиотеки. Он начинается со всех экспериментов и предыдущих раундов оптимизации, которые вы уже проходили через него.

Начиная

1) Окружающая среда:

Установите среду для организации экспериментов и результатов оптимизации.
Любые эксперименты или раунды оптимизации, которые мы выполняем, будут использовать нашу активную среду.

 from hyperparameter_hunter import Environment , CVExperiment
import pandas as pd
from sklearn . datasets import load_breast_cancer
from sklearn . model_selection import StratifiedKFold

data = load_breast_cancer ()
df = pd . DataFrame ( data = data . data , columns = data . feature_names )
df [ 'target' ] = data . target

env = Environment (
    train_dataset = df ,  # Add holdout/test dataframes, too
    results_path = 'path/to/results/directory' ,  # Where your result files will go
    metrics = [ 'roc_auc_score' ],  # Callables, or strings referring to `sklearn.metrics`
    cv_type = StratifiedKFold ,  # Class, or string in `sklearn.model_selection`
    cv_params = dict ( n_splits = 5 , shuffle = True , random_state = 32 )
)

2) Индивидуальные эксперименты:

Выполните эксперименты с вашими любимыми библиотеками, просто предоставив модельные инициализаторы и гиперпараметры

Керас

 # Same format used by `keras.wrappers.scikit_learn`. Nothing new to learn
def build_fn ( input_shape ):  # `input_shape` calculated for you
    model = Sequential ([
        Dense ( 100 , kernel_initializer = 'uniform' , input_shape = input_shape , activation = 'relu' ),
        Dropout ( 0.5 ),
        Dense ( 1 , kernel_initializer = 'uniform' , activation = 'sigmoid' )
    ])  # All layer arguments saved (whether explicit or Keras default) for future use
    model . compile ( optimizer = 'adam' , loss = 'binary_crossentropy' , metrics = [ 'accuracy' ])
    return model

experiment = CVExperiment (
    model_initializer = KerasClassifier ,
    model_init_params = build_fn ,  # We interpret your build_fn to save hyperparameters in a useful, readable format
    model_extra_params = dict (
        callbacks = [ ReduceLROnPlateau ( patience = 5 )],  # Use Keras callbacks
        batch_size = 32 , epochs = 10 , verbose = 0  # Fit/predict arguments
    )
)

Sklearn

 experiment = CVExperiment (
    model_initializer = LinearSVC ,  # (Or any of the dozens of other SK-Learn algorithms)
    model_init_params = dict ( penalty = 'l1' , C = 0.9 )  # Default values used and recorded for kwargs not given
)

XGBOOST

 experiment = CVExperiment (
    model_initializer = XGBClassifier ,
    model_init_params = dict ( objective = 'reg:linear' , max_depth = 3 , n_estimators = 100 , subsample = 0.5 )
)

Lightgbm

 experiment = CVExperiment (
    model_initializer = LGBMClassifier ,
    model_init_params = dict ( boosting_type = 'gbdt' , num_leaves = 31 , max_depth = - 1 , min_child_samples = 5 , subsample = 0.5 )
)

Кошачьи

 experiment = CVExperiment (
    model_initializer = CatboostClassifier ,
    model_init_params = dict ( iterations = 500 , learning_rate = 0.01 , depth = 7 , allow_writing_files = False ),
    model_extra_params = dict ( fit = dict ( verbose = True ))  # Send kwargs to `fit` and other extra methods
)

RGF

 experiment = CVExperiment (
    model_initializer = RGFClassifier ,
    model_init_params = dict ( max_leaf = 1000 , algorithm = 'RGF' , min_samples_leaf = 10 )
)

3) Оптимизация гиперпараметра:

Так же, как эксперименты, но если вы хотите оптимизировать гиперпараметр, используйте классы, импортированные ниже

 from hyperparameter_hunter import Real , Integer , Categorical
from hyperparameter_hunter import optimization as opt

Керас

 def build_fn ( input_shape ):
    model = Sequential ([
        Dense ( Integer ( 50 , 150 ), input_shape = input_shape , activation = 'relu' ),
        Dropout ( Real ( 0.2 , 0.7 )),
        Dense ( 1 , activation = Categorical ([ 'sigmoid' , 'softmax' ]))
    ])
    model . compile (
        optimizer = Categorical ([ 'adam' , 'rmsprop' , 'sgd' , 'adadelta' ]),
        loss = 'binary_crossentropy' , metrics = [ 'accuracy' ]
    )
    return model

optimizer = opt . RandomForestOptPro ( iterations = 7 )
optimizer . forge_experiment (
    model_initializer = KerasClassifier ,
    model_init_params = build_fn ,
    model_extra_params = dict (
        callbacks = [ ReduceLROnPlateau ( patience = Integer ( 5 , 10 ))],
        batch_size = Categorical ([ 32 , 64 ]),
        epochs = 10 , verbose = 0
    )
)
optimizer . go ()

Sklearn

 optimizer = opt . DummyOptPro ( iterations = 42 )
optimizer . forge_experiment (
    model_initializer = AdaBoostClassifier ,  # (Or any of the dozens of other SKLearn algorithms)
    model_init_params = dict (
        n_estimators = Integer ( 75 , 150 ),
        learning_rate = Real ( 0.8 , 1.3 ),
        algorithm = 'SAMME.R'
    )
)
optimizer . go ()

XGBOOST

 optimizer = opt . BayesianOptPro ( iterations = 10 )
optimizer . forge_experiment (
    model_initializer = XGBClassifier ,
    model_init_params = dict (
        max_depth = Integer ( low = 2 , high = 20 ),
        learning_rate = Real ( 0.0001 , 0.5 ),
        n_estimators = 200 ,
        subsample = 0.5 ,
        booster = Categorical ([ 'gbtree' , 'gblinear' , 'dart' ]),
    )
)
optimizer . go ()

Lightgbm

 optimizer = opt . BayesianOptPro ( iterations = 100 )
optimizer . forge_experiment (
    model_initializer = LGBMClassifier ,
    model_init_params = dict (
        boosting_type = Categorical ([ 'gbdt' , 'dart' ]),
        num_leaves = Integer ( 5 , 20 ),
        max_depth = - 1 ,
        min_child_samples = 5 ,
        subsample = 0.5
    )
)
optimizer . go ()

Кошачьи

 optimizer = opt . GradientBoostedRegressionTreeOptPro ( iterations = 32 )
optimizer . forge_experiment (
    model_initializer = CatBoostClassifier ,
    model_init_params = dict (
        iterations = 100 ,
        eval_metric = Categorical ([ 'Logloss' , 'Accuracy' , 'AUC' ]),
        learning_rate = Real ( low = 0.0001 , high = 0.5 ),
        depth = Integer ( 4 , 7 ),
        allow_writing_files = False
    )
)
optimizer . go ()

RGF

 optimizer = opt . ExtraTreesOptPro ( iterations = 10 )
optimizer . forge_experiment (
    model_initializer = RGFClassifier ,
    model_init_params = dict (
        max_leaf = 1000 ,
        algorithm = Categorical ([ 'RGF' , 'RGF_Opt' , 'RGF_Sib' ]),
        l2 = Real ( 0.01 , 0.3 ),
        normalize = Categorical ([ True , False ]),
        learning_rate = Real ( 0.3 , 0.7 ),
        loss = Categorical ([ 'LS' , 'Expo' , 'Log' , 'Abs' ])
    )
)
optimizer . go ()

Структура выходного файла

Это простая иллюстрация структуры файла, которую вы можете ожидать, что ваш Experiment будет сгенерировать. Для подробного описания структуры каталога и содержимого различных файлов см. В разделе обзор структуры файла в документации. Тем не менее, основы следующие:

Experiment добавляет файл в каждую гиперпараметровую синтероунтеры/эксперименты подкаканитор, названный в experiment_id
Каждый Experiment также добавляет запись в HyperparameterHunterassets/Leaderbests/Globalleaderboard.csv
Настройте, какие файлы создаются через file_blacklist Environment и do_full_save kwargs (задокументировано здесь)

 HyperparameterHunterAssets
|   Heartbeat.log
|
└───Experiments
|   |
|   └───Descriptions
|   |   |   <Files describing Experiment results, conditions, etc.>.json
|   |
|   └───Predictions<OOF/Holdout/Test>
|   |   |   <Files containing Experiment predictions for the indicated dataset>.csv
|   |
|   └───Heartbeats
|   |   |   <Files containing the log produced by the Experiment>.log
|   |
|   └───ScriptBackups
|       |   <Files containing a copy of the script that created the Experiment>.py
|
└───Leaderboards
|   |   GlobalLeaderboard.csv
|   |   <Other leaderboards>.csv
|
└───TestedKeys
|   |   <Files named by Environment key, containing hyperparameter keys>.json
|
└───KeyAttributeLookup
    |   <Files linking complex objects used in Experiments to their hashes>

Установка

 pip install hyperparameter-hunter

Если вам нравится быть на передовой, и вы хотите все последние разработки, запустите:

 pip install git+https://github.com/HunterMcGushion/hyperparameter_hunter.git

Если вы хотите внести свой вклад в HyperparameterHunter, начните здесь.

Я все еще не понимаю

Это нормально. Не чувствую себя плохо. Немного странно обернуть голову. Вот пример, который показывает, как все связано:

 from hyperparameter_hunter import Environment , CVExperiment , BayesianOptPro , Integer
from hyperparameter_hunter . utils . learning_utils import get_breast_cancer_data
from xgboost import XGBClassifier

# Start by creating an `Environment` - This is where you define how Experiments (and optimization) will be conducted
env = Environment (
    train_dataset = get_breast_cancer_data ( target = 'target' ),
    results_path = 'HyperparameterHunterAssets' ,
    metrics = [ 'roc_auc_score' ],
    cv_type = 'StratifiedKFold' ,
    cv_params = dict ( n_splits = 10 , shuffle = True , random_state = 32 ),
)

# Now, conduct an `Experiment`
# This tells HyperparameterHunter to use the settings in the active `Environment` to train a model with these hyperparameters
experiment = CVExperiment (
    model_initializer = XGBClassifier ,
    model_init_params = dict (
        objective = 'reg:linear' ,
        max_depth = 3
    )
)

# That's it. No annoying boilerplate code to fit models and record results
# Now, the `Environment`'s `results_path` directory will contain new files describing the Experiment just conducted

# Time for the fun part. We'll set up some hyperparameter optimization by first defining the `OptPro` (Optimization Protocol) we want
optimizer = BayesianOptPro ( verbose = 1 )

# Now we're going to say which hyperparameters we want to optimize.
# Notice how this looks just like our `experiment` above
optimizer . forge_experiment (
    model_initializer = XGBClassifier ,
    model_init_params = dict (
        objective = 'reg:linear' ,  # We're setting this as a constant guideline - Not one to optimize
        max_depth = Integer ( 2 , 10 )  # Instead of using an int like the `experiment` above, we provide a space to search
    )
)
# Notice that our range for `max_depth` includes the `max_depth=3` value we used in our `experiment` earlier

optimizer . go ()  # Now, we go

assert experiment . experiment_id in [ _ [ 2 ] for _ in optimizer . similar_experiments ]
# Here we're verifying that the `experiment` we conducted first was found by `optimizer` and used as learning material
# You can also see via the console that we found `experiment`'s saved files, and used it to start optimization

last_experiment_id = optimizer . current_experiment . experiment_id
# Let's save the id of the experiment that was just conducted by `optimizer`

optimizer . go ()  # Now, we'll start up `optimizer` again...

# And we can see that this second optimization round learned from both our first `experiment` and our first optimization round
assert experiment . experiment_id in [ _ [ 2 ] for _ in optimizer . similar_experiments ]
assert last_experiment_id in [ _ [ 2 ] for _ in optimizer . similar_experiments ]
# It even did all this without us having to tell it what experiments to learn from

# Now think about how much better your hyperparameter optimization will be when it learns from:
# - All your past experiments, and
# - All your past optimization rounds
# And the best part: HyperparameterHunter figures out which experiments are compatible all on its own
# You don't have to worry about telling it that KFold=5 is different from KFold=10,
# Or that max_depth=12 is outside of max_depth=Integer(2, 10)

Протестированные библиотеки

Керас
Scikit-learn
Lightgbm
Кошачьи
XGBOOST
rgf_python
... больше в пути

GOTCHAS/FAQS

Это некоторые вещи, которые могут "Getcha"

Общий:

Не можете предоставить первоначальные точки поиска для OptPro ?
- Это намеренно. Если вы хотите, чтобы ваши раунды оптимизации начинались с определенных поисковых точек (которые вы еще не записали), просто выполните CVExperiment , прежде чем инициализация вашего OptPro
- Предполагая, что эти два имеют одинаковые руководящие гиперпараметры, и Experiment вписывается в пространство поиска, определяемое вашим OptPro , оптимизатор будет найти и читать в результатах Experiment
- Имейте в виду, вы, вероятно, захотите удалить Experiment после того, как вы сделали это один раз, так как результаты были сохранены. Оставить его там, просто снова и снова проведет тот же Experiment
После изменения вещей в моем каталоге "HyperparameterHunterassets" все перестало работать
- Да, не делай этого. Особенно не с «описаниями», «таблицами лидеров» или «TestedKeys»
- HyperparameterHunter выясняет, что происходит, прочитав эти файлы напрямую.
- Удаление их или изменение их содержания может сломать много функциональности HyperparameterHunter

Керас:

Не можете найти аналогичные эксперименты с простыми плотными/активационными нейронными сетями?
- Это, вероятно, вызвано переключением между использованием отдельного уровня Activation и обеспечением Dense слоя с activation Kwarg
- Каждый слой рассматривается как свой маленький набор гиперпараметров (а также сам гиперпараметт), что означает, что в отношении гиперпараметрического синтера, следующие два примера не являются эквивалентными:
  - Dense(10, activation='sigmoid')
  - Dense(10); Activation('sigmoid')
- Мы работаем над этим, но сейчас обходной путь просто соответствует тому, как вы добавляете активации в свои модели
  - Либо используйте отдельные слои Activation , либо предоставьте activation Kwargs для других слоев, и придерживайтесь его!
optimizer optimizer_params оптимизировать аргументы model.compile .
- Это происходит потому, что optimizers Керас ожидают разных аргументов
- Например, когда optimizer=Categorical(['adam', 'rmsprop']) , существуют два разных возможных дабах optimizer_params
- На данный момент вы можете только оптимизировать optimizer и optimizer_params отдельно
- Хорошим способом сделать это может быть выбрать несколько оптимизаторов, которые вы хотите проверить, и не предоставлять значение optimizer_params . Таким образом, каждый optimizer будет использовать свои параметры по умолчанию
  - Затем вы можете выбрать, какой optimizer был лучшим, и установить optimizer=<best optimizer> , затем перейдите к настройке optimizer_params , с аргументами, специфичными для выбранного вами optimizer

Catboost:

Не можете найти подобные эксперименты для Catboost?
- Это может происходить, потому что значения по умолчанию для Kwargs, ожидаемых в модели Catboost __init__ Методы, определены где -то еще, и дают значения заполнителей None в их подписях.
- Из -за этого HyperparameterHunter предполагает, что значение по умолчанию для аргумента на самом деле None является, если вы не даете явно значение для этого аргумента
- Это, очевидно, не так, но я просто не могу выяснить, где находятся фактические значения по умолчанию, используемые Catboost, поэтому, если кто -то знает, как исправить эту ситуацию, мне бы понравилась ваша помощь!

Расширять

Дополнительная информация