knowledge distillation pytorch Download - knowledge distillation pytorch Quellcode Download

knowledge distillation pytorch

Python

1.0.0

Herunterladen

Knowledge-Distillation-Pytorch

Erforschung der Wissensdestillation von DNNs für effiziente Hardware -Lösungen
Autor: Haitong Li
Framework: Pytorch
Datensatz: CIFAR-10

Merkmale

Ein Rahmen zur Erforschung von "flachen" und "tiefen" Wissensdestillationsexperimenten (KD)
Hyperparameter definiert von "params.json" allgemein (Vermeiden Sie lange Argparser -Befehle)
Hyperparameter -Suche und Ergebnissynthese (als Tabelle)
Fortschrittsbalken, Tensorboard -Support und Checkpoint -Speichern/Laden (utils.py)
Vorbereitete Lehrermodelle zum Download verfügbar

Installieren

Klonen Sie das Repo

 git clone https://github.com/peterliht/knowledge-distillation-pytorch.git

Installieren Sie die Abhängigkeiten (einschließlich Pytorch)
```
 pip install -r requirements.txt
```

Organisation:

./train.py: Haupteingang für Zug/Bewertung mit oder ohne KD auf CIFAR-10
./experiments/: JSON -Dateien für jedes Experiment; Dir für Hypersearch
./Model/: Lehrer und Schüler DNNs, KD

Wichtige Anmerkungen zur Verwendung für Ihre Experimente:

Laden Sie die ZIP -Datei für vorbereitete Kontrollpunkte für Lehrermodell von "Experimente.zip" herunter.
Bewegen Sie einfach die entpackten Unterordner in "Wissensdestillations-Pytorch/Experimente/" (ersetzen Sie die vorhandenen gegebenenfalls den Standard-Pfad.
Rufen Sie Train.py an, um mit dem Training von 5-layerer CNN mit dem dunklen Wissen von ResNet-18 zu beginnen oder Resnet-18 mit hochmodernen tieferen Modellen zu trainieren
Verwenden Sie Search_hyperparams.py für Hypersearch
Hyperparameter sind in Params.json -Dateien allgemein definiert. Weitere Informationen finden Sie im Header von Search_hyperparams.py

Zug (Datensatz: CIFAR-10)

Hinweis: Alle Hyperparameter können in 'params.json' unter 'model_dir' gefunden und geändert werden

-Trainieren Sie einen 5-Schicht-CNN mit Wissen, das aus einem vorgebildeten Resnet-18-Modell destilliert ist

 python train.py --model_dir experiments/cnn_distill

-Trainieren Sie ein Resnet-18-Modell mit Wissen, das von einem vorgeborenen ResNext-29-Lehrer destilliert wurde

 python train.py --model_dir experiments/resnet18_distill/resnext_teacher

- Hyperparameter-Suche nach einem bestimmten Experiment ('parent_dir/params.json')

 python search_hyperparams.py --parent_dir experiments/cnn_distill_alpha_temp

-Synthese-Ergebnisse der jüngsten Hypersearch-Experimente

 python synthesize_results.py --parent_dir experiments/cnn_distill_alpha_temp

Ergebnisse: "flach" und "tiefe" Destillation

Schnelle Imbissbuden (weitere Details hinzuzufügen):

Wissensdestillation bietet Regularisierung sowohl für flache DNNs als auch für hochmoderne DNNs
Wenn Sie nicht angemeldet sind oder teilweise Datensatz sind, können Sie von dunklen Kenntnissen von Lehrermodellen profitieren

-Wissensdestillation von Resnet-18 bis 5-Layer CNN

Modell	Tropfen = 0,5	Kein Ausfall
5-layer CNN	83,51%	84,74%
5-layer CNN W/ Resnet18	84,49%	85,69%

- Wissensdestillation von tieferen Modellen bis resnet-18

Modell	Testgenauigkeit
Baseline Resnet-18	94,175%
+ KD Bideresnet-28-10	94,333%
+ KD Preresnet-110	94,531%
+ KD Densenet-100	94,729%
+ KD Resnext-29-8	94,788%

Referenzen

H. Li, "Erforschung der Wissensdestillation von tiefen neuronalen Netzen für effiziente Hardware -Lösungen", CS230 Report, 2018

Hinton, Geoffrey, Oriol Vinyals und Jeff Dean. "Destillieren des Wissens in einem neuronalen Netzwerk." Arxiv Preprint Arxiv: 1503.02531 (2015).

Romero, A., Ballas, N., Kahou, SE, A. Chassang, C. Gatta & Y. Bengio (2014). Fitnets: Hinweise für dünne tiefe Netze. Arxiv Preprint Arxiv: 1412.6550.

https://github.com/cs230-stanford/cs230-stanford.github.io

https://github.com/bearpaw/pytorch-classification

Expandieren

Zusätzliche Informationen