Téléchargement imodels - Téléchargement du code source imodels

imodels

Autre code source

1.0.0

Télécharger

Package Python pour la modélisation prédictive concise, transparente et précise.
Tous-compatibles Sklearn et faciles à utiliser.
Pour l'interprétabilité dans NLP, consultez notre nouveau package: IMODELSX

Docs • Notebooks de démonstration

Les modèles modernes d'apprentissage automatique sont de plus en plus complexes, ce qui les rend souvent difficiles à interpréter. Ce package fournit une interface simple pour l'ajustement et l'utilisation de modèles interprétables de pointe, tous compatibles avec Scikit-Learn. Ces modèles peuvent souvent remplacer les modèles de boîte noire (par exemple les forêts aléatoires) par des modèles plus simples (par exemple, les listes de règles) tout en améliorant l'interprétabilité et l'efficacité de calcul, le tout sans sacrifier la précision prédictive! Importez simplement un classificateur ou un régresseur et utilisez les méthodes fit et predict , identiques que les modèles Scikit-Learn standard.

 from sklearn . model_selection import train_test_split
from imodels import get_clean_dataset , HSTreeClassifierCV # import any imodels model here

# prepare data (a sample clinical dataset)
X , y , feature_names = get_clean_dataset ( 'csi_pecarn_pred' )
X_train , X_test , y_train , y_test = train_test_split (
    X , y , random_state = 42 )

# fit the model
model = HSTreeClassifierCV ( max_leaf_nodes = 4 )  # initialize a tree model and specify only 4 leaf nodes
model . fit ( X_train , y_train , feature_names = feature_names )   # fit model
preds = model . predict ( X_test ) # discrete predictions: shape is (n_test, 1)
preds_proba = model . predict_proba ( X_test ) # predicted probabilities: shape is (n_test, n_classes)
print ( model ) # print the model

 ------------------------------
Decision Tree with Hierarchical Shrinkage
Prediction is made by looking at the value in the appropriate leaf of the tree
------------------------------
|--- FocalNeuroFindings2 <= 0.50
|   |--- HighriskDiving <= 0.50
|   |   |--- Torticollis2 <= 0.50
|   |   |   |--- value: [0.10]
|   |   |--- Torticollis2 >  0.50
|   |   |   |--- value: [0.30]
|   |--- HighriskDiving >  0.50
|   |   |--- value: [0.68]
|--- FocalNeuroFindings2 >  0.50
|   |--- value: [0.42]

Installation

Installez avec pip install imodels (voir ici pour obtenir de l'aide).

Modèles pris en charge

Docs? Document de recherche? Implémentation du code de référence

Modèle	Référence	Description
Ensemble de règles de règle RuleFit	,? ,?	Convient à un modèle linéaire clairsemé sur les règles extraites des arbres de décision
Ensemble de règles Skope	,?	Extrait les règles des arbres soulevés par gradient, les déduplique, puis les combine linéairement en fonction de leur précision OOB
Ensemble de règles stimulé	,? ,?	S'adapte séquentiellement à un ensemble de règles avec Adaboost
Ensemble de règles de pantoufle	,?	Apprend séquentiellement un ensemble de règles avec une pantoufle
Ensemble de règles bayésien	,? ,?	Trouve un ensemble de règles concises avec un échantillonnage bayésien (lent)
Liste de règles optimale	,? ,?	Convient à la liste des règles en utilisant l'optimisation globale pour la rareté (Corels)
Liste des règles bayésiennes	,? ,?	Convient à la distribution de la liste des règles compactes avec l'échantillonnage bayésien (lent)
Liste des règles gourmandes	,?	Utilise CART pour s'adapter à une liste (un seul chemin), plutôt qu'un arbre
Liste des règles d'on	,?	Correspond à la liste des règles limites à une seule fonctionnalité
Arbre de règle optimal	,? ,?	Convient à l'arbre succinct en utilisant l'optimisation globale pour la rareté (GOSDT)
Arbre de règles gourmands	,? ,?	S'adapte avidement à l'arbre à l'aide du chariot
Arbre de règle C4.5	,? ,?	S'adapte à l'arbre en utilisant C4.5
Tao Rule Tree	,?	S'adapte à l'arbre en utilisant l'optimisation alternative
Aléatoire itératif forêt	,? ,?	S'adaptez à plusieurs reprises à une forêt aléatoire, donnant des fonctionnalités avec une plus grande importance une plus grande chance d'être sélectionné
Entier clairsemé modèle linéaire	,?	Modèle linéaire clairsemé avec des coefficients entiers
Gam arbre	,? ,?	Modèle additif généralisé ajustement avec des arbres à remontée courte
Arbre gourmand sommes (figues)	, ㅤ?	Somme de petits arbres avec très peu de règles totales (figues)
Hiérarchique enveloppe de rétrécissement	,?	Améliorer un arbre de décision, une forêt aléatoire ou Ensemble de renforcement des gradient avec une régularisation ultra-rapide post-hoc
RF + (MDI +)	,?	Importance de fonctionnalité basée sur la forêt aléatoire flexible
Distillation emballage		Former un modèle de boîte noire, puis distiller en un modèle interprétable
Emballage automatique		Ajuster automatiquement et sélectionner un modèle interprétable
Plus de modèles	⌛	(À venir bientôt!) Induction de règles légères, mlrules, ...

Cahiers de démonstration

Les démos sont contenues dans le dossier des ordinateurs portables.

Démo QuickStart

Montre comment s'adapter, prédire et visualiser avec différents modèles interprétables

Démo autogluon

Ajuster / sélectionner un modèle interprétable automatiquement à l'aide d'Autogluon Automl

Demo de colab QuickStart

Montre comment s'adapter, prédire et visualiser avec différents modèles interprétables

Note de règle de décision clinique

Montre un exemple d'utilisation imodels pour dériver une règle de décision clinique

Analyse posthoc

Nous incluons également certaines démos d'analyse posthoc, qui se produisent après des modèles d'ajustement: posthoc.ipynb montre différentes analyses simples pour interpréter un modèle formé et une incertitude.Ipynb contient du code de base pour obtenir des estimations d'incertitude pour un modèle

Quelle est la différence entre les modèles?

La forme finale des modèles ci-dessus prend l'une des formes suivantes, qui visent à être simultanément simples à comprendre et très prédictives:

Ensemble de règles	Liste de règles	Arbre de règle	Modèles algébriques

Différents modèles et algorithmes varient non seulement dans leur forme finale, mais aussi dans différents choix faits lors de la modélisation, tels que la façon dont ils génèrent, sélectionnent et les règles de post-traitement:

Génération des candidats aux règles	Sélection des règles	Règle post-traitement

Ex. RuleFit vs Skoperules

RuleFit et Skoperules ne diffèrent que par la façon dont ils élaguent les règles: RuleFit utilise un modèle linéaire tandis que les skoperules déduplisent heuristiquement des règles de partage.

Ex. Listes de règles bayésiennes par rapport aux listes de règles gourmandes

Les listes de règles bayésiennes et les listes de règles gourmands diffèrent dans la façon dont elles sélectionnent les règles; Les listes de règles bayésiennes effectuent une optimisation globale sur les listes de règles possibles tandis que les listes de règles gourmands choisissent les divisions séquentiellement pour maximiser un critère donné.

Ex. Fpskope vs skoperules

FPSKOPE et Skoperules ne diffèrent que par la façon dont ils génèrent des règles des candidats: FPSKOPE utilise FPGROWTH tandis que Skoperules extrait les règles des arbres de décision.

Support pour différentes tâches

Différents modèles prennent en charge différentes tâches d'apprentissage automatique. La prise en charge actuelle de différents modèles est indiquée ci-dessous (chacun de ces modèles peut être importé directement à partir d'IMODELS (par exemple from imodels import RuleFitClassifier ):

Modèle	Classification binaire	Régression	Notes
Ensemble de règles de règle RuleFit	RulefitClassifier	RulefitRegressor
Ensemble de règles Skope	Skoperulesclassifier
Ensemble de règles stimulé	BoostEdrulesClassifier	BoostedrulesRegressor
Ensemble de règles de pantoufle	Slippercasseur
Ensemble de règles bayésien	BayesianrulesetClassifier		Échoue pour de gros problèmes
Liste de règles optimale (Corel)	OptimalRulelistClassifier		Nécessite des carrés, échoue pour de gros problèmes
Liste des règles bayésiennes	BayesianrulelistClassifier
Liste des règles gourmandes	CupidyrulelistClassifier
Liste des règles d'on	Classificateur
Arbre de règles optimal (GOSDT)	OptimaltreeClassifier		Nécessite le GOSDT, échoue pour de gros problèmes
Arbre de règles gourmands (CART)	Gourmand	Gourmand
Arbre de règle C4.5	C45treClassifier
Tao Rule Tree	Taotteclassifier	Taotteeregressor
Forêt aléatoire itérative	Irfclassifier		Nécessite IRF
Modèle linéaire entier clairsemé	Slimclassifier	Minceur	Nécessite des dépendances supplémentaires pour la vitesse
Gam arbre	TreegamClassifier	Treegamregressor
Summes d'arbres gourmands (figues)	Classificateur	Figure
Retrait hiérarchique	Htreeclassifiercv	Htreeeregressorcv	Enveloppe tout modèle basé sur l'arbre Sklearn
Distillation		Distillé	Enveloppe tous les modèles compatibles Sklearn
Modèle Automl	Auto-InterpretableClassifiertres.	Auto-intermédiaire

Extras

Fonctions d'évolution des données pour travailler avec des ensembles de données tabulaires populaires (par exemple Compas).

Ces fonctions, en conjonction avec IModels-data et iModels-Experiments, facilitent le téléchargement de données et exécutent des expériences sur de nouveaux modèles.

Expliquez les erreurs de classification avec une fonction posthoc simple.

Ajustez un modèle interprétable pour expliquer les erreurs d'un modèle précédent (ex. Dans ce cahier?).

Discrétiseurs rapides et efficaces pour le prétraitement des données.

Discréditeur	Référence	Description
Mdlp	,? ,?	Discrétiser l'utilisation de l'entropie minimisation heuristique
Simple	,?	Discrétisation Kbins simple
Forêt aléatoire		Discrétiser en bacs basés sur la popularité aléatoire de la forêt

Utilisations basées sur des règles pour la personnalisation des modèles

Le code contient ici de nombreuses fonctions utiles et personnalisables pour l'apprentissage basé sur des règles dans le dossier util. Cela inclut les fonctions / classes pour la déduplication des règles, le dépistage des règles et la conversion entre les arbres, les ensembles de règles et les réseaux de neurones.

Nos modèles préférés

Après avoir développé et joué avec imodels , nous avons développé quelques nouveaux modèles pour surmonter les limites des modèles interprétables existants.

Figs: Summes de treed interprétable rapide

? Papier, ? Poste, ? Citation

Les sommes (Fig) (Fig) (Fig) est un algorithme pour ajuster les modèles concis basés sur des règles. Plus précisément, les FIGS généralisent le CART pour cultiver simultanément un nombre flexible d'arbres dans une sommation. Le nombre total de divisions dans tous les arbres peut être limité par un seuil pré-spécifié, en gardant le modèle interprétable. Des expériences sur un large éventail de jeux de données du monde réel montrent que les Figs obtiennent des performances de prédiction de pointe lorsqu'elles sont limitées à quelques fentes (par exemple moins de 20).

Exemple de modèle Figs. Les figues apprennent une somme d'arbres avec un nombre flexible d'arbres; Pour faire sa prédiction, il résume le résultat de chaque arbre.

Retrait hiérarchique: régularisation post-hoc pour les méthodes basées sur les arbres

? Papier (ICML 2022) ,? Poste, ? Citation

Le retrait hiérarchique est une méthode de régularisation post-hoc extrêmement rapide qui fonctionne sur tout arbre de décision (ou ensemble basé sur des arbres, comme la forêt aléatoire). Il ne modifie pas la structure de l'arbre et régulise à la place l'arbre en rétrécissant la prédiction sur chaque nœud vers les moyennes de l'échantillon de ses ancêtres (en utilisant un seul paramètre de régularisation). Les expériences sur une grande variété de jeux de données montrent que le retrait hiérarchique augmente considérablement les performances prédictives des arbres de décision individuels et des ensembles de l'arbre de décision.

Exemple HS. HS applique une régularisation post-hoc à tout arbre de décision en rétrécissant chaque nœud vers son parent.

MDI +: Importance de fonctionnalité basée sur l'arbre flexible

? Papier, ? Poste, ? Citation

MDI + est un nouveau cadre d'importance de caractéristique, qui généralise la diminution moyenne populaire du score d'importance de l'impureté (MDI) pour les forêts aléatoires. À la base, MDI + développe un lien récemment découvert entre la régression linéaire et les arbres de décision. Ce faisant, MDI + permet aux praticiens de (1) d'adapter le calcul de l'importance des fonctionnalités pour la structure des données / problèmes et (2) intégrer des caractéristiques ou des connaissances supplémentaires pour atténuer les biais connus des arbres de décision. Dans les études de cas de données réelles et les simulations inspirées des données réelles réelles, MDI + surpasse les mesures d'importance couramment utilisées (par exemple, MDI, scores basés sur la permutation et Treeshap) par des marges de substantif.

Références

Lectures

Interprétable ML Bon aperçu rapide: Murdoch et al. 2019, PDF
Livre de ML interprétable: Molnar 2019, PDF
Cas pour les modèles interprétables plutôt que sur l'explication post-hoc: Rudin 2019, PDF
Revue sur l'évaluation de l'interprétabilité: Doshi-Velez & Kim 2017, PDF

Implémentations de référence (également liées ci-dessus)

Le code ici dérive fortement du travail merveilleux des projets précédents. Nous cherchons à extraire, à unifier et à maintenir des parties clés de ces projets.

Pycorels - par @fingoldin et l'équipe d'origine Corels
Sklearn-Expertsys - par @tmadl et @kenben basé sur le code original de Ben Letham
RuleFit - par @christophm
Skope-Rules - par l'équipe Skope-Rules (y compris @ngoix, @floriangardin, @datajms, bibi ndiaye, Ronan Gautier)
boa - par @wangtongada

Packages connexes

glearn: régression / classification symbolique
PYSR: régression symbolique rapide
pygam: modèles d'additif génératif
Interprétml: GAM basé sur le coup de pouce
H20 AI: GAMS + GLMS (et plus)
Optbinning: Modèles de discrétisation / de notation des données

Mises à jour

Pour les mises à jour, mettez en vedette le dépôt, consultez ce repo connexe ou suivez @csinva_
Veuillez vous assurer de donner aux auteurs des méthodes originales / implémentations de base de crédit approprié!
Contribution: Pull Demandes très bienvenue!

Veuillez citer le package si vous l'utilisez dans un travail académique :)

 @ software {
	imodels2021 ,
	title        = { imodels : a python package for fitting interpretable models },
	journal      = { Journal of Open Source Software },
	publisher    = { The Open Journal },
	year         = { 2021 },
	author       = { Singh , Chandan and Nasseri , Keyan and Tan , Yan Shuo and Tang , Tiffany and Yu , Bin },
	volume       = { 6 },
	number       = { 61 },
	pages        = { 3192 },
	doi          = { 10.21105 / joss.03192 },
	url          = { https : // doi.org / 10.21105 / joss.03192 },
}

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-02-26
taille 5.74MB
Provenant de Github

Applications connexes

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Autre code source

1.0.0

Actualités connexes Tout