knowledge distillation pytorch Télécharger - knowledge distillation pytorch Téléchargement du code source

knowledge distillation pytorch

Python

1.0.0

Télécharger

connaissances-distillation-pytorch

Exploration de la distillation de connaissances des DNN pour des solutions matérielles efficaces
Auteur: Haitong Li
Cadre: Pytorch
Ensemble de données: CIFAR-10

Caractéristiques

Un cadre pour explorer les expériences "peu profondes" et "profondes" de la distillation de connaissances (KD)
Hyperparamètres définis par "params.json" universellement (éviter les longues commandes ArgParser)
Recherche d'hyperparamètre et synthèse des résultats (comme un tableau)
Bar de progression, support Tensorboard et enregistrement / chargement de point de contrôle (utils.py)
Modèles d'enseignants pré-entraînés disponibles en téléchargement

Installer

Cloner le repo

 git clone https://github.com/peterliht/knowledge-distillation-pytorch.git

Installez les dépendances (y compris Pytorch)
```
 pip install -r requirements.txt
```

Organisation:

./train.py: Entrée principale pour le train / EVAL avec ou sans KD sur CIFAR-10
./Experiments/: fichiers JSON pour chaque expérience; dir pour hypersearch
./Model/: DNNS enseignant et élève, Distillation des connaissances (KD) Détection des pertes, DatalOader

Notes clés sur l'utilisation de vos expériences:

Téléchargez le fichier zip pour les points de contrôle du modèle de professeur prétrainés à partir de "expériences.zip"
Déplacez simplement les sous-dossiers dézippés dans «les connaissances-distillation-pytorch / expériences /» (remplacer les existantes si nécessaire; suivez la dénomination de chemin par défaut)
Appelez Train.py pour commencer à former CNN à 5 couches avec les connaissances sombres de RESNET-18, ou la formation Resnet-18 avec des modèles plus profonds à la pointe de la technologie distillés
Utilisez search_hyperparams.py pour hypersearch
Les hyperparamètres sont définis dans les fichiers params.json universellement. Reportez-vous à l'en-tête de search_hyperparams.py pour plus de détails

Train (ensemble de données: CIFAR-10)

Remarque: Tous les hyperparamètres peuvent être trouvés et modifiés dans 'params.json' sous 'modèle_dir'

- Former un CNN à 5 couches avec des connaissances distillées à partir d'un modèle RESNET-18 préfabriqué

 python train.py --model_dir experiments/cnn_distill

- Former un modèle RESNET-18 avec des connaissances distillées à partir d'un enseignant Resnext-29 pré-formé

 python train.py --model_dir experiments/resnet18_distill/resnext_teacher

- Recherche d'hyperparamètre d'une expérience spécifiée ('parent_dir / params.json')

 python search_hyperparams.py --parent_dir experiments/cnn_distill_alpha_temp

--synthétiser les résultats des récentes expériences de recherche Hypersearch

 python synthesize_results.py --parent_dir experiments/cnn_distill_alpha_temp

Résultats: Distillation "peu profonde" et "profonde"

Des plats à emporter rapides (plus de détails à ajouter):

La distillation des connaissances fournit une régularisation à la fois pour les DNN peu profonds et les DNN de pointe
Avoir un ensemble de données non marqué ou partiel peut bénéficier d'une sombre connaissance des modèles d'enseignants

- Distillation des connaissances de RESNET-18 à 5 couches CNN

Modèle	Abandon = 0,5	Pas de décroche
CNN à 5 couches	83,51%	84,74%
CNN à 5 couches avec Resnet18	84,49%	85,69%

- Distillation des connaissances des modèles plus profonds à Resnet-18

Modèle	Précision de test
Resnet-18 de base	94,175%
+ KD plus large-28-10	94,333%
+ KD Preresnet-110	94,531%
+ KD densenet-100	94,729%
+ KD RESNEXT-29-8	94,788%

Références

H. Li, «Exploration de la distillation des connaissances des filets neuronaux profonds pour des solutions matérielles efficaces», Rapport CS230, 2018

Hinton, Geoffrey, Oriol Vinyals et Jeff Dean. "Distillant les connaissances dans un réseau neuronal." ARXIV Préprint Arxiv: 1503.02531 (2015).

Romero, A., Ballas, N., Kahou, SE, Chassang, A., Gatta, C., et Bengio, Y. (2014). FITNETS: Conseils pour les minces filets profonds. ARXIV PRÉALLAGE ARXIV: 1412.6550.

https://github.com/cs230-stanford/cs230-stanford.github.io

https://github.com/bearpaw/pytorch-classification

Développer

Informations supplémentaires