micronet Download - micronet Source Code Download

Mikronet

"Gegenwärtig gibt es zwei Schulen im Bereich Deep Learning. Eine ist eine akademische Schule, die leistungsstarke und komplexe Modellnetzwerke und experimentelle Methoden untersucht, um eine höhere Leistung zu erzielen. Die andere ist eine technische Schule, die darauf abzielt, Algorithmen zu implementieren, die Algorithmen stabil und effizienter auf Hardware -Plattformen implementieren. Effizienz ist. Das wachsende Ausmaß der tiefen neuronalen Netzwerke hat den Einsatz von Deep -Lernen auf dem mobilen Terminal enorme Herausforderungen mitgebracht, und die Komprimierung und Bereitstellung von Deep Learning Model sind zu einem der Forschungsbereiche geworden, auf die sich sowohl die Wissenschaft als auch die Industrie konzentriert haben. "

Projekteinführung

Microt, eine Modellkomprimierung und Bereitstellung von Lib.

Kompression

Quantifizierung: Hochbit (> 2b): QAT, Ptq, Qaft; Niedrig-bit (≤ 2b)/ternär und binär: QAT
Beschneiden: normale, regelmäßige und gruppierte Faltungsstruktur Beschneiden
BN -Fusion für die binäre Quantisierung für Merkmal (a) (Bindung BN -Parameter -> conv)
BN-Fusion durch hohe Bit quantisiert (in Trainingsquantisierung, zuerst Fusion und dann Quantisierung, Fusion: BN-Parameter-> Gewicht w und Bias B) überzeugen

einsetzen

Tensorrt (FP32/FP16/INT8 (PTQ-Kalibrierung), OP-Adapt (Upample), Dynamic_shape usw.)

Codestruktur

code_struktur

 micronet
├── __init__.py
├── base_module
│   ├── __init__.py
│   └── op.py
├── compression
│   ├── README.md
│   ├── __init__.py
│   ├── pruning
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── gc_prune.py
│   │   ├── main.py
│   │   ├── models_save
│   │   │   └── models_save.txt
│   │   └── normal_regular_prune.py
│   └── quantization
│       ├── README.md
│       ├── __init__.py
│       ├── wbwtab
│       │   ├── __init__.py
│       │   ├── bn_fuse
│       │   │   ├── bn_fuse.py
│       │   │   ├── bn_fused_model_test.py
│       │   │   └── models_save
│       │   │       └── models_save.txt
│       │   ├── main.py
│       │   ├── models_save
│       │   │   └── models_save.txt
│       │   └── quantize.py
│       └── wqaq
│           ├── __init__.py
│           ├── dorefa
│           │   ├── __init__.py
│           │   ├── main.py
│           │   ├── models_save
│           │   │   └── models_save.txt
│           │   ├── quant_model_test
│           │   │   ├── models_save
│           │   │   │   └── models_save.txt
│           │   │   ├── quant_model_para.py
│           │   │   └── quant_model_test.py
│           │   └── quantize.py
│           └── iao
│               ├── __init__.py
│               ├── bn_fuse
│               │   ├── bn_fuse.py
│               │   ├── bn_fused_model_test.py
│               │   └── models_save
│               │       └── models_save.txt
│               ├── main.py
│               ├── models_save
│               │   └── models_save.txt
│               └── quantize.py
├── data
│   └── data.txt
├── deploy
│   ├── README.md
│   ├── __init__.py
│   └── tensorrt
│       ├── README.md
│       ├── __init__.py
│       ├── calibrator.py
│       ├── eval_trt.py
│       ├── models
│       │   ├── __init__.py
│       │   └── models_trt.py
│       ├── models_save
│       │   └── calibration_seg.cache
│       ├── test_trt.py
│       └── util_trt.py
├── models
│   ├── __init__.py
│   ├── nin.py
│   ├── nin_gc.py
│   └── resnet.py
└── readme_imgs
    ├── code_structure.jpg
    └── micronet.xmind

Projektfortschritt

2019.12.4 , zuerst einreichen
12.8 , Dorefa -Feature (a) ist zuerst vor der Quantisierung skaliert (* 0,1) und dann verkürzt, um den Kürzungsfehler zu verringern
12.11 , Projektcode -Strukturdiagramm hinzufügen
12.12, Verbesserung der Nutzungsbeispiele
12.14, hinzugefügt: 1. Die Quantisierungssituation der BN-Fusion (W dreiwertig/binärer Wert) ist optional, dh bei der Trainingsquantisierung wird W dreiwertig/binärer Wert ausgewählt, und hier ist die entsprechende Auswahl; 2. Die Verarbeitung von Faltungskern (conv) ohne Verzerrung während der BN -Fusion
12.17 , Datenvergleich vor und nach der Modellkomprimierung hinzufügen (Beispiel)
12.20, Geräteoptionen hinzufügen (CPU, GPU (Einzelkarte, Mehrfachkarte))
12.27 , ergänzende Papiere mit
12.29, um die Grenze der Hochbit-Quantisierung innerhalb von 8-Bit zu entfernen, dh sie kann jetzt auf 10-Bit, 16-Bit usw. quantifizieren, usw.
2020.2.17 , 1. Vereinfachen Sie W dreiwertige/binäre Quantisierungscode; 2. Das Dreiwert-Quantisierungstraining beschleunigen
2.18 , optimieren Sie die BN -Fusion für binäre Merkmalswerte (a): Entfernen Sie die Einschränkungen der Bn -Schicht -Gamma -Parameter, dh BN kann in diesem Fall während der Fusion normal trainiert werden.
2.24 optimieren Sie die drei/binäre Quantisierungscode -Organisationsstruktur erneut, um die Portabilität zu verbessern. Die alte Version ist in der Tat nicht einfach zu transplantieren. Aktuelle Portierungsmethode: Ersetzen Sie die Überzeugung, die Sie mit quantconv2d in Komprimierung/Quantisierung/wbwtab/models/util_wbwtab.py quantifizieren möchten. Sie können sich auf die Verwendungsmethode in nin_gc.py unter diesem Pfad beziehen
3.1 , hinzugefügt: 1. Googles hohe Quantisierungsmethode von Google; 2. Bn Fusion der hohen Quantisierung während des Trainings während des Trainings
3.2 , 3.3, regulieren Sie die Gesamtstruktur des Quantisierungscode. Gegenwärtig können alle Quantisierungsmethoden eine ähnliche Portierungsmethode anwenden: Die von Dorefa unterstützte Konv (FC, die derzeit von Dorefa unterstützt werden, sind ähnlich wie das Schreiben zu beschreiben) können durch quantconv2d (oder quantlinear) in Modellen/util_wxax.py ersetzt werden. Sie können sich auf die Verwendungsmethoden in nin_gc.py unter diesem Pfad zur Portierung beziehen (Klassifizierung, Erkennung, Segmentierung usw. sind anwendbar, müssen jedoch gemäß der tatsächlichen Situation debuggen).
3.4 . Optimieren Sie regelmäßig den relevanten Implementierungscode "BN Fusion für Feature (a) Binärwert" in WBWTAB/BN_FUSE und können vor und nach der Fusion (Genauigkeit/Geschwindigkeit/(Größe)) einen BN -Fusions- und Modellvergleichstest durchführen.
3.11, passen Sie den Parameter der Bn -Schicht -Impuls in Komprimierung/WQAQ/IAO (0,1 -> 0,01) ein, schwächen Sie den Anteil der statistischen Stapelparameter und unterdrücken Sie den durch Quantisierung verursachten Jitter in gewissem Maße. Nach den Experimenten ist das quantitative Training stabiler, ACC wird um etwa 1%erhöht.
3.13 Aktualisieren Sie das Codestrukturdiagramm
4.6, behoben das Problem des W_Clip im Binärquantisierungstraining (zuvor wurde die Genauigkeit der binären Quantisierungstrainage nicht verbessert und kann jetzt normal verwendet werden) (auch das Problem behoben, einige Module wie Modelle/util_wxax.py nicht zu finden)
12.14 , 1. Verbesserung der Codestruktur; 2. Fügen Sie Deployming-Tensorrt hinzu (Hauptmodul, aber noch nicht ausgeführt).
12.18, 1. Verbesserung der Codestruktur/Modulreferenz/Modul_Name; 2. Demo der Transfer-Use-Nutzung hinzufügen
12.21 , Pipeline und Code zur Quantisierung der Schnittbeschreibung verbessern
2021.1.4 , fügen Sie andere quant_op hinzu
1.5, fügen Sie Quant_weights pro-kanal- und pro-Schichtauswahl hinzu
1.7 , beheben Sie IAOs Verlustnan-Fehler. Der Fehler ist auf einen pro-kanal-min/max-Fehler zurückzuführen
1.8, 1. Quant_para Save. Jetzt nur skalieren und Zero_Point speichern; 2. Fügen Sie optionales Gewicht hinzu (minmaxobserver oder bewegungsabfertigeminmaxobserver)
1.11 , Fehler in Binary_A (1/0) und Binary_W -Vorverarbeitung beheben
1.12 , "pip install" hinzufügen
1.22 , fügen Sie auto_insert_quant_op hinzu (dies muss noch verbessert werden)
1.27 , verbessern Sie auto_insert_quant_op (jetzt können Sie die Quantisierung leicht als quant_test_auto verwenden)
1,28, 1. Pipeline und Code Fix Prune-Quantization; 2. Verbesserung der Codestruktur
2.1 , verbessern Sie wbwtab_bn_fuse
2.4 , 1. Fügen Sie WQAQ_BN_FUSE hinzu; 2.Simulation quant_model_inference add; 3.. Das Codeformat verbessern
4.30, 1. Aktualisieren Sie Code_Structure IMG; 2. Fix Iao von quant_weight_range, quant_contrans und quant_bn_fuse_conv vorab vorab.
5.4 , add qaft , es ist vorteilhaft, die Quantisierungsgenauigkeit zu verbessern
5.6 , add PTQ , seine Quantisierungsgenauigkeit ist auch gut
5.11, fügen Sie BN_FUSE_CALIB -Flag hinzu
5.14 , 1. ändern Sie Ste in clip_ste , es ist vorteilhaft, den quant_train zu verbessern. 2. Entfernen Sie quant_relu und fügen Sie quant_leaky_relu hinzu
5.15, Fehler in quant_model_para post-verarbeitungsverfahren beheben
6.7 , add quant_add (muss base_module op) und quant_resnet -Demo verwendet werden
6.9 , Iao_quant Support Multi GPUs
6.16, fix quant_round () und quant_binary ()
10.6, Format

Umweltanforderungen

Python> = 3,5
Fackel> = 1.1.0
Torchvison> = 0.3.0
Numpy
onnx == 1.6.0
Tensorrt == 7.0.0.11

Installieren

Pypi

pip install micronet -i https://pypi.org/simple

Github

git clone https://github.com/666DZY666/micronet.git
cd micronet
python setup.py install

verifizieren

python -c " import micronet; print(micronet.__version__) "

prüfen

Installieren Sie von GitHub

Kompression

Quantifizierung

-REFINE, kann vorgezogene schwimmende Punktmodellparameter laden und sie basierend darauf quantisieren

wbwtab

--w-A, Gewicht w und haben einen quantisierten Wert

 cd micronet/compression/quantization/wbwtab

Wbab

python main.py --W 2 --A 2

Wba32

python main.py --W 2 --A 32

Wtab

python main.py --W 3 --A 2

WTA32

python main.py --W 3 --A 32

Wqaq

--w_bits-A_bits, Gewicht w und verfügen über eine quantisierte Bitzahl

Dorefa

 cd micronet/compression/quantization/wqaq/dorefa

W16A16

python main.py --w_bits 16 --a_bits 16

W8A8

python main.py --w_bits 8 --a_bits 8

W4A4

python main.py --w_bits 4 --a_bits 4

Andere Bits Situation Analogie

iao

 cd micronet/compression/quantization/wqaq/iao

Quantitative Ziffernauswahl wie Dorefa

Einzelkarte

QAT/PTQ -> Qaft

! Beachten Sie, dass Sie QAFT nach QAT/PTQ machen müssen!

--q_type, Quantisierungstyp (0-symmetrisch, 1-symmetrisch)

--Q_Level, Gewichtsniveau (0-Kanal-Ebene, 1-Stufe)

--weight_observer, Gewicht_observer Auswahl (0-minmaxobserver, 1-movingaverageminmaxobserver)

-BN_FUSE, BN-Fusionsflagge zur Quantifizierung

-BN_FUSE_CALIB, BN-Fusionskalibrierungsmarke bei der Quantisierung

-Vorbereitete_Model, vorgezogenes schwimmendes Punktmodell

-Qaft, Qaft Flag

--PTQ, PTQ_OBSERVER

--ptq_control, ptq_control

--Ptq_Batch, die Anzahl der Chargen von PTQ

-Percentile, PTQ-Kalibrierungsverhältnis

Qat

Standard: Symmetrisch, (Gewichts-) Kanalebene Quantisierung, BN ist nicht fusion, Gewicht_observer-minmaxobserver, vorgebildetes Schwimmpunktmodell ist nicht geladen, QAT

python main.py --q_type 0 --q_level 0 --weight_observer 0

Symmetrische, (Gewichts-) Kanal-Ebene-Quantisierung, Bn nicht Fusion, Gewicht_OBSERVER-MOVINGAVERAGEMINMINMAXOBSERVER

python main.py --q_type 0 --q_level 0 --weight_observer 1

Symmetrisch, (Gewichts-) Level -Quantisierung, BN fusion nicht

python main.py --q_type 0 --q_level 1

Asymmetrisch, (Gewichts-) Kanal-Ebene Quantisierung, BN fusion nicht

python main.py --q_type 1 --q_level 0

Asymmetrisch, (Gewichts-) Niveau -Quantisierung, BN fusion nicht

python main.py --q_type 1 --q_level 1

Symmetrische, (Gewichts-) Kanal-Ebene-Quantisierung, Bn-Fusion

python main.py --q_type 0 --q_level 0 --bn_fuse

Symmetrische, (Gewichts-) Level -Quantisierung, BN -Fusion

python main.py --q_type 0 --q_level 1 --bn_fuse

Asymmetrische, (Gewicht) Quantisierung auf Kanalebene, BN-Fusion

python main.py --q_type 1 --q_level 0 --bn_fuse

Asymmetrisch, (Gewichts-) Niveau -Quantisierung, BN -Fusion

python main.py --q_type 1 --q_level 1 --bn_fuse

Symmetrische, (Gewicht) Quantisierung auf Kanalebene, BN-Fusionskalibrierung

python main.py --q_type 0 --q_level 0 --bn_fuse --bn_fuse_calib

Ptq

Vorausgebildeter Gleitkomma-Modell muss geladen werden, was durch normales Training beim Beschneiden erhalten werden kann.

Symmetrische, (Gewichts-) Kanal-Ebene-Quantisierung, Bn-Fusion

python main.py --refine ../../../pruning/models_save/nin_gc.pth --q_level 0 --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Andere Situationenanalogien

Qaft

! Beachten Sie, dass Sie QAFT nach QAT/PTQ machen müssen!

QAT -> Qaft

Symmetrische, (Gewichts-) Kanal-Ebene-Quantisierung, Bn-Fusion

python main.py --resume models_save/nin_gc_bn_fused.pth --q_type 0 --q_level 0 --bn_fuse --qaft --lr 0.00001

Andere Situationenanalogien

Ptq -> Qaft

Symmetrische, (Gewichts-) Kanal-Ebene-Quantisierung, Bn-Fusion

python main.py --resume models_save/nin_gc_bn_fused.pth --q_level 0 --bn_fuse --qaft --lr 0.00001 --ptq

Andere Situationenanalogien

Beschneidung

Spärliches Training -> Beschneidung -> Feinanpassung

 cd micronet/compression/pruning

Spärliches Training

-sr Spärdes Zeichen

-S Sparse Rate (muss gemäß den Datensatz- und Modellbedingungen angepasst werden)

-Modelltyp-Model_type (0-nin, 1-nin_gc)

Nin (normale Faltungsstruktur)

python main.py -sr --s 0.0001 --model_type 0

NIN_GC (einschließlich Gruppierung der Faltungsstruktur)

python main.py -sr --s 0.001 --model_type 1

Beschneidung

-Percent-Schnittrate

-Normal_reguläre normale, regelmäßige Schnittflaggen und regelmäßige Beschneidungsbasis (wenn auf N eingestellt, ist die Anzahl der Filter pro Schicht des Modells nach dem Beschneiden ein Vielfaches von n).

-Model des Modellpfads nach spärlichem Training

-Sparen Sie den nach dem Beschneiden gespeicherten Modellpfad (der Pfad wurde standardmäßig gegeben und kann gemäß der tatsächlichen Situation geändert werden)

Normales Beschneiden (Nin)

python normal_regular_prune.py --percent 0.5 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

Regelmäßiges Beschneiden (Nin)

python normal_regular_prune.py --percent 0.5 --normal_regular 8 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

oder

python normal_regular_prune.py --percent 0.5 --normal_regular 16 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

Gruppierte Faltungsstruktur Beschneidung (NIN_GC)

python gc_prune.py --percent 0.4 --model models_save/nin_gc_sparse.pth

Feinanpassung

-Prune_Refine Der Modellpfad nach dem Beschneiden (feinstimmende basierend darauf)

python main.py --model_type 0 --prune_refine models_save/nin_prune.pth

nin_gc

Sie müssen die CFG des neuen Modells nach dem Beschneiden übergeben

wie

python main.py --model_type 1 --gc_prune_refine 154 162 144 304 320 320 608 584

Beschneiden -> Quantifizierung (Beachten Sie das Gleichgewicht der Schnittrate und Quantisierungsrate)

Laden Sie das beschnittene schwimmende Punktmodell und quantisieren Sie es dann

Beschneidung -> Quantifizierung (hohes Niveau) (die Beschneidungsrate ist zu groß und die Quantisierungsrate ist zu klein)

W8A8 (Dorefa)

 cd micronet/compression/quantization/wqaq/dorefa

Nin (normale Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth

NIN_GC (einschließlich Gruppierung der Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth

W8A8 (IAO)

 cd micronet/compression/quantization/wqaq/iao

QAT/PTQ -> Qaft

! Beachten Sie, dass Sie QAFT nach QAT/PTQ machen müssen!

Qat

BN fusion nicht

Nin (normale Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --lr 0.001

NIN_GC (einschließlich Gruppierung der Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --lr 0.001

Bn Fusion

Nin (normale Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --lr 0.001

NIN_GC (einschließlich Gruppierung der Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --bn_fuse --pretrained_model --lr 0.001

Ptq

Nin (normale Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Andere Situationenanalogien

Qaft

! Beachten Sie, dass Sie QAFT nach QAT/PTQ machen müssen!

QAT -> Qaft

BN fusion nicht

Nin (normale Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001

NIN_GC (einschließlich Gruppierung der Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001

Bn Fusion

Nin (normale Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001

NIN_GC (einschließlich Gruppierung der Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001

Ptq -> Qaft

BN fusion nicht

Nin (normale Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001 --ptq

NIN_GC (einschließlich Gruppierung der Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001 --ptq

Bn Fusion

Nin (normale Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

NIN_GC (einschließlich Gruppierung der Faltungsstruktur)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

Andere optionale quantitative Konfigurationsanalogien

Beschneiden -> Quantisierung (niedrig) (Die Beschneidungsrate ist gering, die Quantisierungsrate ist groß)

 cd micronet/compression/quantization/wbwtab

wbab

Nin (normale Faltungsstruktur)

python main.py --W 2 --A 2 --model_type 0 --prune_quant ../../pruning/models_save/nin_finetune.pth

NIN_GC (einschließlich Gruppierung der Faltungsstruktur)

python main.py --W 2 --A 2 --model_type 1 --prune_quant ../../pruning/models_save/nin_gc_retrain.pth

Andere Wertschöpfungsanalogien

BN -Fusion und quantitative Inferenzsimulationstest

wbwtab

 cd micronet/compression/quantization/wbwtab/bn_fuse

BN_FUSE (Nehmen Sie die Struktur und Parameter von quant_model_train und quant_bn_fused_model_inference) ab)

-model_type, 1 -nin_gc (einschließlich gruppierter Faltungsstruktur); 0 - Nin (normale Faltungsstruktur)

-Prune_quant, PRUNING_QUANTITATIVE MODELLE FLAG

--w, Gewichtsquantisierungswert

Alle müssen mit dem quantitativen Training übereinstimmen, und Sie können den Standard direkt verwenden

nin_gc, quant_model, wb

python bn_fuse.py --model_type 1 --W 2

nin_gc, prune_quant_model, wb

python bn_fuse.py --model_type 1 --prune_quant --W 2

nin_gc, quant_model, wt

python bn_fuse.py --model_type 1 --W 3

Nin, quant_model, wb

python bn_fuse.py --model_type 0 --W 2

bn_fused_model_test (Tests auf quant_model_train und quant_bn_fused_model_inference)

python bn_fused_model_test.py

Dorefa

 cd micronet/compression/quantization/wqaq/dorefa/quant_model_test

quant_model_para (abrufen die Struktur und Parameter von quant_model_train und quant_model_inference)

-model_type, 1 -nin_gc (einschließlich gruppierter Faltungsstruktur); 0 - Nin (normale Faltungsstruktur)

-Prune_quant, PRUNING_QUANTITATIVE MODELLE FLAG

--w_bit, Gewichtsquantisierungszahl der Bits; -A_Bits, Aktivierungsquantisierungsnummer von Bits

Alle müssen mit dem quantitativen Training übereinstimmen, und Sie können den Standard direkt verwenden

nin_gc, quant_model, w8a8

python quant_model_para.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python quant_model_para.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

Nin, Quant_Model, W8A8

python quant_model_para.py --model_type 0 --w_bits 8 --a_bits 8

quant_model_test (testet quant_model_train und quant_model_inference)

python quant_model_test.py

iao

Beachten Sie, dass beim quantisierten Training - -BN_FUSE auf true eingestellt werden muss

 cd micronet/compression/quantization/wqaq/iao/bn_fuse

BN_FUSE (Erhalten Sie die Struktur und Parameter von quant_bn_fused_model_train und quant_bn_fused_model_inference)

-model_type, 1 -nin_gc (einschließlich gruppierter Faltungsstruktur); 0 - Nin (normale Faltungsstruktur)

-Prune_quant, PRUNING_QUANTITATIVE MODELLE FLAG

--w_bit, Gewichtsquantisierungszahl der Bits; -A_Bits, Aktivierungsquantisierungsnummer von Bits

--q_type, 0 -symmetrisch; 1 - asymmetrisch

--Q_Level, 0 -Kanalebene; 1 - Ebene

Alle müssen mit dem quantitativen Training übereinstimmen, und Sie können den Standard direkt verwenden

nin_gc, quant_model, w8a8

python bn_fuse.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python bn_fuse.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

Nin, Quant_Model, W8A8

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8

nin_gc, quant_model, W8A8, Asymmetrie, Hierarchie

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8 --q_type 1 --q_level 1

bn_fused_model_test (Tests auf quant_bn_fused_model_train und quant_bn_fused_model_inference)

python bn_fused_model_test.py

Auswahl der Ausrüstung

Unterstützt nun CPU und GPU (Einzelkarte, mehrere Karte)

-CPU Verwenden Sie CPU, --gpu_id und wählen Sie GPU aus

python main.py --cpu

GPU -Einzelkarte

python main.py --gpu_id 0

oder

python main.py --gpu_id 1

GPU Multicard

python main.py --gpu_id 0,1

oder

python main.py --gpu_id 0,1,2

Verwenden Sie standardmäßig die vollständige Karte Server

einsetzen

Tensorrt

Derzeit wird nur relevanter Kernmodulcode bereitgestellt, und später wird eine vollständige Runnable -Demo hinzugefügt.

wandern

Quantitative Ausbildung

Lenet Beispiel

quant_test_manual.py

Ein Modell kann durch einfaches Austausch von OP durch quant_op quantisiert werden (hochbit (> 2b), niedrig (≤ 2b)/ternär und binär).

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

# ``quantize`` is quant_module, ``QuantConv2d``, ``QuantLinear``, ``QuantMaxPool2d``, ``QuantReLU`` are quant_op
from micronet . compression . quantization . wbwtab . quantize import (
    QuantConv2d as quant_conv_wbwtab ,
)
from micronet . compression . quantization . wbwtab . quantize import (
    ActivationQuantizer as quant_relu_wbwtab ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantConv2d as quant_conv_dorefa ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantLinear as quant_linear_dorefa ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantConv2d as quant_conv_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantLinear as quant_linear_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantMaxPool2d as quant_max_pool_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantReLU as quant_relu_iao ,
)


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetWbWtAb ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetWbWtAb , self ). __init__ ()
        self . conv1 = quant_conv_wbwtab ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_wbwtab ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = quant_relu_wbwtab ()

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetDoReFa ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetDoReFa , self ). __init__ ()
        self . conv1 = quant_conv_dorefa ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_dorefa ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_dorefa ( 320 , 50 )
        self . fc2 = quant_linear_dorefa ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetIAO ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetIAO , self ). __init__ ()
        self . conv1 = quant_conv_iao ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_iao ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_iao ( 320 , 50 )
        self . fc2 = quant_linear_iao ( 50 , 10 )
        self . max_pool = quant_max_pool_iao ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


lenet = LeNet ()
quant_lenet_wbwtab = QuantLeNetWbWtAb ()
quant_lenet_dorefa = QuantLeNetDoReFa ()
quant_lenet_iao = QuantLeNetIAO ()

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_wbwtab*** n " , quant_lenet_wbwtab )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

quant_test_auto.py

Ein Modell kann unter Verwendung von micronet.compression.quantization.quantize.Prepare (Modell) quantisiert werden (hochbit (> 2b), niedrig bit (≤ 2b)/ternär und binär).

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

import micronet . compression . quantization . wqaq . dorefa . quantize as quant_dorefa
import micronet . compression . quantization . wqaq . iao . quantize as quant_iao


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


"""
--w_bits --a_bits, 权重W和特征A量化位数
--q_type, 量化类型(0-对称, 1-非对称)
--q_level, 权重量化级别(0-通道级, 1-层级)
--weight_observer, weight_observer选择(0-MinMaxObserver, 1-MovingAverageMinMaxObserver)
--bn_fuse, 量化中bn融合标志
--bn_fuse_calib, 量化中bn融合校准标志
--pretrained_model, 预训练浮点模型
--qaft, qaft标志
--ptq, ptq标志
--percentile, ptq校准的比例
"""
lenet = LeNet ()
quant_lenet_dorefa = quant_dorefa . prepare ( lenet , inplace = False , a_bits = 8 , w_bits = 8 )
quant_lenet_iao = quant_iao . prepare (
    lenet ,
    inplace = False ,
    a_bits = 8 ,
    w_bits = 8 ,
    q_type = 0 ,
    q_level = 0 ,
    weight_observer = 0 ,
    bn_fuse = False ,
    bn_fuse_calib = False ,
    pretrained_model = False ,
    qaft = False ,
    ptq = False ,
    percentile = 0.9999 ,
)

# if ptq == False, do qat/qaft, need train
# if ptq == True, do ptq, don't need train
# you can refer to micronet/compression/quantization/wqaq/iao/main.py

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

prüfen

quant_test_manual

python -c " import micronet; micronet.quant_test_manual() "

quant_test_auto

python -c " import micronet; micronet.quant_test_auto() "

Beim Ausgabe von "quant_model ist bereit" ist die Mikrorot bereit.

Quantitative Argumentation

Referenz -BN -Fusion und quantitative Inferenzsimulationstest

Vergleich von Modell komprimierten Daten (nur als Referenz)

Das Folgende ist ein CIFAR10 -Beispiel, bei dem Sie andere kombinierte Komprimierungsmethoden für redundantere Modelle und größere Datensätze ausprobieren können.

Typ	W (Bits)	A (Bits)	Acc	Gflops	Para (m)	Größe (MB)	Druckrate	Verlust
Originalmodell (Nin)	FP32	FP32	91,01%	0,15	0,67	2.68	***	***
Verwenden der Gruppierung der Faltungsstruktur (NIN_GC)	FP32	FP32	91,04%	0,15	0,58	2.32	13,43%	-0,03%
Beschneidung	FP32	FP32	90,26%	0,09	0,32	1.28	52,24%	0,75%
Quantifizierung	1	FP32	90,93%	***	0,58	0,204	92,39%	0,08%
Quantifizierung	1.5	FP32	91%	***	0,58	0,272	89,85%	0,01%
Quantifizierung	1	1	86,23%	***	0,58	0,204	92,39%	4,78%
Quantifizierung	1.5	1	86,48%	***	0,58	0,272	89,85%	4,53%
Quantifizierung (Dorefa)	8	8	91,03%	***	0,58	0,596	77,76%	-0,02%
Quantifizierung (IAO, Vollquantifizierung, symmetrisch/pro-kanal/bn_fuse)	8	8	90,99%	***	0,58	0,596	77,76%	0,02%
Gruppierung + Beschneidung + Quantisierung	1.5	1	86,13%	***	0,32	0,19	92,91%	4,88%

--train_batch_size 256, einzelne Karte

Nachfolgend

Tensorrt Full Demo
Andere Komprimierungsalgorithmen (Quantisierung/Beschneidung/Destillation/NAS usw.)
Andere Bereitstellungsrahmen (MNN/TNN/TNGINE usw.)
Komprimierung -> Einsatz

Expandieren

micronet

Mikronet

Projekteinführung

Kompression

einsetzen

Codestruktur

Projektfortschritt

Umweltanforderungen

Installieren

prüfen

Kompression

Quantifizierung

wbwtab

Wqaq

Dorefa

iao

Beschneidung

Spärliches Training

Beschneidung

Feinanpassung

Beschneiden -> Quantifizierung (Beachten Sie das Gleichgewicht der Schnittrate und Quantisierungsrate)

Beschneidung -> Quantifizierung (hohes Niveau) (die Beschneidungsrate ist zu groß und die Quantisierungsrate ist zu klein)

W8A8 (Dorefa)

W8A8 (IAO)

Andere optionale quantitative Konfigurationsanalogien

Beschneiden -> Quantisierung (niedrig) (Die Beschneidungsrate ist gering, die Quantisierungsrate ist groß)

wbab

Andere Wertschöpfungsanalogien

BN -Fusion und quantitative Inferenzsimulationstest

wbwtab

BN_FUSE (Nehmen Sie die Struktur und Parameter von quant_model_train und quant_bn_fused_model_inference) ab)

bn_fused_model_test (Tests auf quant_model_train und quant_bn_fused_model_inference)

Dorefa

quant_model_para (abrufen die Struktur und Parameter von quant_model_train und quant_model_inference)

quant_model_test (testet quant_model_train und quant_model_inference)

iao

BN_FUSE (Erhalten Sie die Struktur und Parameter von quant_bn_fused_model_train und quant_bn_fused_model_inference)

bn_fused_model_test (Tests auf quant_bn_fused_model_train und quant_bn_fused_model_inference)

Auswahl der Ausrüstung

einsetzen

Tensorrt

Verwandte Interpretationen

wandern

Quantitative Ausbildung

Lenet Beispiel

quant_test_manual.py

quant_test_auto.py

prüfen

quant_test_manual

quant_test_auto

Quantitative Argumentation

Vergleich von Modell komprimierten Daten (nur als Referenz)

Verwandte Informationen

Kompression

Quantifizierung

Qat

Binärer Wert

Drei Werte

Hochbit

Ptq

Hochbit

Beschneidung

Modellkomprimierung an spezielle Chips angepasst

einsetzen

Tensorrt

Nachfolgend