Descarga de micronet - Descarga del código fuente de micronet

micronet

"En la actualidad, hay dos escuelas en el campo del aprendizaje profundo. Una es una escuela académica, que estudia redes de modelos poderosas y complejas y métodos experimentales para obtener un mayor rendimiento; el otro es una escuela de ingeniería, cuyo objetivo es implementar algoritmos de manera más estable y eficiente en las plataformas de hardware. de las redes neuronales profundas ha traído enormes desafíos al despliegue del aprendizaje profundo en la terminal móvil, y la compresión y el despliegue del modelo de aprendizaje profundo se han convertido en una de las áreas de investigación en las que tanto la academia como la industria se han centrado ".

Introducción del proyecto

Microt, un modelo de compresión y despliegue lib.

compresión

Cuantificación: alto bit (> 2b): QAT, PTQ, QAFT; Bajo bit (≤2b)/ternario y binario: QAT
Poda: poda de estructura convolucional normal, regular y agrupada
BN Fusion para cuantización binaria para la función (a) (parámetros de BN de unión—> conv)
BN Fusión cuantificada por alto bit (en cuantización de entrenamiento, primera fusión y luego cuantización, fusión: parámetros de BN—> convivir w y sesgo b)

desplegar

Tensorrt (FP32/FP16/INT8 (PTQ-Calibración), OP-ADATT (UPSample), Dynamic_Shape, etc.)

Estructura de código

code_structure

 micronet
├── __init__.py
├── base_module
│   ├── __init__.py
│   └── op.py
├── compression
│   ├── README.md
│   ├── __init__.py
│   ├── pruning
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── gc_prune.py
│   │   ├── main.py
│   │   ├── models_save
│   │   │   └── models_save.txt
│   │   └── normal_regular_prune.py
│   └── quantization
│       ├── README.md
│       ├── __init__.py
│       ├── wbwtab
│       │   ├── __init__.py
│       │   ├── bn_fuse
│       │   │   ├── bn_fuse.py
│       │   │   ├── bn_fused_model_test.py
│       │   │   └── models_save
│       │   │       └── models_save.txt
│       │   ├── main.py
│       │   ├── models_save
│       │   │   └── models_save.txt
│       │   └── quantize.py
│       └── wqaq
│           ├── __init__.py
│           ├── dorefa
│           │   ├── __init__.py
│           │   ├── main.py
│           │   ├── models_save
│           │   │   └── models_save.txt
│           │   ├── quant_model_test
│           │   │   ├── models_save
│           │   │   │   └── models_save.txt
│           │   │   ├── quant_model_para.py
│           │   │   └── quant_model_test.py
│           │   └── quantize.py
│           └── iao
│               ├── __init__.py
│               ├── bn_fuse
│               │   ├── bn_fuse.py
│               │   ├── bn_fused_model_test.py
│               │   └── models_save
│               │       └── models_save.txt
│               ├── main.py
│               ├── models_save
│               │   └── models_save.txt
│               └── quantize.py
├── data
│   └── data.txt
├── deploy
│   ├── README.md
│   ├── __init__.py
│   └── tensorrt
│       ├── README.md
│       ├── __init__.py
│       ├── calibrator.py
│       ├── eval_trt.py
│       ├── models
│       │   ├── __init__.py
│       │   └── models_trt.py
│       ├── models_save
│       │   └── calibration_seg.cache
│       ├── test_trt.py
│       └── util_trt.py
├── models
│   ├── __init__.py
│   ├── nin.py
│   ├── nin_gc.py
│   └── resnet.py
└── readme_imgs
    ├── code_structure.jpg
    └── micronet.xmind

Progreso del proyecto

2019.12.4 , Primer envío
12.8 , la función DOREFA (a) se escala primero (* 0.1) antes de la cuantización, y luego se trunca para reducir el error de truncamiento
12.11 , Agregar diagrama de estructura del código de proyecto
12.12, mejorar los ejemplos de uso
12.14, agregado: 1. La situación de cuantización de la fusión BN (W de tres valores/valor binario) es opcional, es decir, cuando se selecciona la cuantización de entrenamiento, W de tres valor/valor binario, y aquí está la selección correspondiente; 2. El procesamiento del núcleo de convolución (conv) sin sesgo durante la fusión BN
12.17 , agregue la comparación de datos antes y después de la compresión del modelo (ejemplo)
12.20, Agregar opciones de dispositivo (CPU, GPU (tarjeta única, tarjeta múltiple))
12.27 , documentos relacionados con suplementarios
12.29, eliminando el límite de cuantización de alta bits dentro de 8 bits, es decir, ahora puede cuantificar a 10 bits, 16 bits, etc.
2020.2.17 , 1. Simplifique el código de cuantización de tres valores/binarios; 2. Acelerar w entrenamiento de cuantización de tres valores
2.18 , optimice la fusión BN para los valores binarios de la característica (a): elimine las limitaciones en los parámetros gamma de la capa BN, es decir, BN puede ser entrenado normalmente durante la fusión en este caso.
2.24 , optimice nuevamente la estructura de la organización del código de cuantificación de tres/binarios para mejorar la portabilidad, la versión anterior no es fácil de trasplantar. Método de portada actual: reemplace el convivir que desea cuantificar con QuantConv2D en compresión/cuantización/wbwtab/modelos/util_wbwtab.py. Puede consultar el método de uso en nin_gc.py en esta ruta
3.1 , agregado: 1. Método de cuantización de alta bits de Google; 2. BN Fusión de cuantificación de alto bits durante el entrenamiento
3.2 , 3.3, regularizan la estructura general del código de cuantización. En la actualidad, todos los métodos de cuantización pueden adoptar un método de portada similar: el Conv (o FC, actualmente compatible con DOREFA, otros métodos son similares a los escritos) puede ser reemplazado por QuantConv2D (o Quantlinear) en modelos/util_wxax.py. Puede consultar los métodos de uso en nin_gc.py en esta ruta para la portada (clasificación, detección, segmentación, etc. son aplicables, pero deben depugarse de acuerdo con la situación real)
3.4 . Optimice regularmente el código de implementación relevante de "BN Fusion for Feature (A) Binary Value" en WBWTAB/BN_FUSE, y puede realizar la prueba de comparación de fusiones y modelos BN antes y después de la fusión (precisión/velocidad/(tamaño)))
3.11, ajuste el parámetro de momento de la capa BN en la compresión/WQAQ/IAO (0.1 -> 0.01), debilite la proporción de parámetros estadísticos por lotes y suprima el fluctuación causada por la cuantización en cierta medida. Después de los experimentos, el entrenamiento cuantitativo es más estable, ACC aumenta en aproximadamente un 1%.
3.13 , actualice el diagrama de estructura de código
4.6, se solucionó el problema de W_CLIP en el entrenamiento de cuantización binaria (antes, debido a esto, la precisión de la capacitación de cuantificación binaria no mejoró, y ahora se puede usar normalmente) (también se solucionó el problema de no poder encontrar algunos módulos como modelos/util_wxax.py)
12.14 , 1. Mejorar la estructura del código; 2. Agregue la implementación-tensor (módulo principal, pero aún no se ejecuta)
12.18, 1. Mejorar la estructura del código/referencia del módulo/módulo_name; 2. Agregar demostración de uso de transferencia
12.21 , Mejore la tubería y el código de la canterización de la poda
2021.1.4 , agregue otros cuant_op
1.5, agregue la selección de cuant_weight por canal y por capa
1.7 , corrige el error de pérdida de IAO y la pérdida. El error se debe al error mínimo por canal/max
1.8, 1. Mejore cuant_para save. Ahora, solo guarde escala y cero_point; 2. Agregue Weight_observer opcional (MinMaxObServer o MovingAverageMinmaxobServer)
1.11 , corrige el error en el preprocesamiento binary_a (1/0) y binary_w
1.12 , agregue "Instalar PIP"
1.22 , agregue auto_insert_quant_op (esto todavía debe mejorarse)
1.27 , mejorar auto_insert_quant_op (ahora puede usar fácilmente la cuantización, como cuant_test_auto)
1.28, 1. FIJA la tubería y el código de la canterización de la ciruela; 2. Mejorar la estructura del código
2.1 , mejorar wbwtab_bn_fuse
2.4 , 1. Agregar wqaq_bn_fuse; 2. Agregar Quant_model_inference_Simulation; 3. Mejorar el formato de código
4.30, 1. Actualizar Code_Structure IMG; 2. Fije Quant_weight_Range de IAO, Quant_Contrans y Quant_Bn_Fuse_Conv Pretrained_Model Bn_para Load Bug
5.4 , agregue QAFT , es beneficioso mejorar la precisión de la cuantización
5.6 , agregar PTQ , su precisión de cuantización también es buena
5.11, agregue la bandera BN_FUSE_CALIB
5.14 , 1. Cambie Ste a Clip_ste , es beneficioso mejorar el cuant_train; 2. Eliminar cuant_relu y agregar cuant_leaky_relu
5.15, corrige el error en cuant_model_para postprocesamiento
6.7 , agregue cuant_add (necesito usar base_module's op) y cuant_resnet demo
6.9 , IAO_QUANT Support Multi GPU
6.16, fijar cuant_round () y cuant_binary ()
10.6, formato

Requisitos ambientales

Python> = 3.5
antorcha> = 1.1.0
Torchvison> = 0.3.0
numpy
ONNX == 1.6.0
tensorrt == 7.0.0.11

Instalar

Pypi

pip install micronet -i https://pypi.org/simple

Github

git clone https://github.com/666DZY666/micronet.git
cd micronet
python setup.py install

verificar

python -c " import micronet; print(micronet.__version__) "

prueba

Instalar desde Github

compresión

Cuantificación

-Refina, puede cargar parámetros del modelo de punto flotante previamente y cuantificarlos en función de ellos

wbwtab

--W --A, peso w y cuentan con un valor cuantificado

 cd micronet/compression/quantization/wbwtab

WBAB

python main.py --W 2 --A 2

WBA32

python main.py --W 2 --A 32

Wtab

python main.py --W 3 --A 2

WTA32

python main.py --W 3 --A 32

wqaq

--w_bits --a_bits, peso con un recuento de bits cuantizado

dorefa

 cd micronet/compression/quantization/wqaq/dorefa

W16A16

python main.py --w_bits 16 --a_bits 16

W8A8

python main.py --w_bits 8 --a_bits 8

W4A4

python main.py --w_bits 4 --a_bits 4

Otros bits de la situación de la situación

IAO

 cd micronet/compression/quantization/wqaq/iao

Selección de dígitos cuantitativos igual que dorefa

Tarjeta individual

QAT/PTQ -> QAFT

! ¡Tenga en cuenta que debe hacer QAFT después de QAT/PTQ!

--q_type, tipo de cuantización (0-simétrico, 1-simétrico)

--q_level, nivel de ponderación (nivel de 0 canales, 1 nivel)

--weight_observer, weight_observer selección (0-minmaxobserver, 1-movingaverageminmaxobserver)

--BN_FUSE, BN FUSIÓN FUERA EN LA CUANTISIÓN

--BN_FUSE_CALIB, BN Mark de calibración de fusión en cuantización

--PRETRAENTIVO_MODEL, modelo de punto flotante previo

--qaft, bandera de qaft

--PTQ, PTQ_OBSERVER

--PTQ_CONTROL, PTQ_CONTROL

--Ptq_Batch, el número de lotes de PTQ

-Porcentil, relación de calibración PTQ

Ruing

Valor predeterminado: Symetric, (peso) cuantificación a nivel de canal, BN no fusion, weight_observer-minmaxobserver, el modelo de punto flotante previamente capacitado no está cargado, QAT

python main.py --q_type 0 --q_level 0 --weight_observer 0

Cuantización simétrica, (peso) a nivel de canal, bn no fusión, weight_observer-movingaverageminmaxobserver

python main.py --q_type 0 --q_level 0 --weight_observer 1

Cuantización simétrica, (peso), BN no fusión

python main.py --q_type 0 --q_level 1

Cuantización asimétrica, (peso) a nivel de canal, BN no fusión

python main.py --q_type 1 --q_level 0

Cuantización de nivel asimétrico, (peso), BN no fusión

python main.py --q_type 1 --q_level 1

Cuantización simétrica, (peso) a nivel de canal, BN Fusion

python main.py --q_type 0 --q_level 0 --bn_fuse

Cuantización de nivel simétrico, (peso), BN Fusion

python main.py --q_type 0 --q_level 1 --bn_fuse

Cuantización asimétrica, (peso) a nivel de canal, BN Fusion

python main.py --q_type 1 --q_level 0 --bn_fuse

Cuantización de nivel (peso) asimétrico, BN Fusion

python main.py --q_type 1 --q_level 1 --bn_fuse

Cuantización simétrica, (peso) a nivel de canal, calibración de fusión BN

python main.py --q_type 0 --q_level 0 --bn_fuse --bn_fuse_calib

PTQ

El modelo de punto flotante previamente capacitado debe cargarse, lo que se puede obtener mediante entrenamiento normal en poda.

Cuantización simétrica, (peso) a nivel de canal, BN Fusion

python main.py --refine ../../../pruning/models_save/nin_gc.pth --q_level 0 --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Otras analogías de la situación

Camiseta

! ¡Tenga en cuenta que debe hacer QAFT después de QAT/PTQ!

QAT -> QAFT

Cuantización simétrica, (peso) a nivel de canal, BN Fusion

python main.py --resume models_save/nin_gc_bn_fused.pth --q_type 0 --q_level 0 --bn_fuse --qaft --lr 0.00001

Otras analogías de la situación

PTQ -> QAFT

Cuantización simétrica, (peso) a nivel de canal, BN Fusion

python main.py --resume models_save/nin_gc_bn_fused.pth --q_level 0 --bn_fuse --qaft --lr 0.00001 --ptq

Otras analogías de la situación

Poda

Entrenamiento escaso—> poda—> ajuste fino

 cd micronet/compression/pruning

Entrenamiento escaso

-Sr SPARSE Sign

-Tasa escasa (debe ajustarse de acuerdo con el conjunto de datos y las condiciones del modelo)

--model_type Tipo de modelo (0-Nin, 1-NIN_GC)

NIN (estructura convolucional normal)

python main.py -sr --s 0.0001 --model_type 0

nin_gc (incluida la estructura convolucional de agrupación)

python main.py -sr --s 0.001 --model_type 1

Poda

-Tasa de poda por ciento

-Normal_regular normal, podas de poda regular y base de poda regular (si se establece en n, el número de filtros por capa del modelo después de la poda es un múltiplo de n)

-Modelar la ruta del modelo después de un entrenamiento escaso

--Have la ruta del modelo guardada después de la poda (la ruta se ha dado por defecto y se puede cambiar de acuerdo con la situación real)

Poda normal (nin)

python normal_regular_prune.py --percent 0.5 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

Poda regular (nin)

python normal_regular_prune.py --percent 0.5 --normal_regular 8 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

python normal_regular_prune.py --percent 0.5 --normal_regular 16 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

Poda de estructura convolucional agrupada (nin_gc)

python gc_prune.py --percent 0.4 --model models_save/nin_gc_sparse.pth

Ajuste fino

--prune_refine la ruta del modelo después de la poda (ajuste fino basado en ella)

python main.py --model_type 0 --prune_refine models_save/nin_prune.pth

nin_gc

Debe pasar el CFG del nuevo modelo obtenido después de la poda

como

python main.py --model_type 1 --gc_prune_refine 154 162 144 304 320 320 608 584

Poda—> cuantificación (tenga en cuenta la tasa de poda y el equilibrio de la tasa de cuantización)

Cargue el modelo de punto flotante podado y luego lo cuantifica

Poda—> cuantificación (alto nivel) (la tasa de poda es demasiado grande y la tasa de cuantización es demasiado pequeña)

W8A8 (dorefa)

 cd micronet/compression/quantization/wqaq/dorefa

NIN (estructura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth

nin_gc (incluida la estructura convolucional de agrupación)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth

W8A8 (IAO)

 cd micronet/compression/quantization/wqaq/iao

QAT/PTQ -> QAFT

! ¡Tenga en cuenta que debe hacer QAFT después de QAT/PTQ!

Ruing

BN no fusiona

NIN (estructura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --lr 0.001

nin_gc (incluida la estructura convolucional de agrupación)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --lr 0.001

BN Fusion

NIN (estructura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --lr 0.001

nin_gc (incluida la estructura convolucional de agrupación)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --bn_fuse --pretrained_model --lr 0.001

PTQ

NIN (estructura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Otras analogías de la situación

Camiseta

! ¡Tenga en cuenta que debe hacer QAFT después de QAT/PTQ!

QAT -> QAFT

BN no fusiona

NIN (estructura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001

nin_gc (incluida la estructura convolucional de agrupación)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001

BN Fusion

NIN (estructura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001

nin_gc (incluida la estructura convolucional de agrupación)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001

PTQ -> QAFT

BN no fusiona

NIN (estructura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001 --ptq

nin_gc (incluida la estructura convolucional de agrupación)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001 --ptq

BN Fusion

NIN (estructura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

nin_gc (incluida la estructura convolucional de agrupación)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

Otras analogías de configuración cuantitativa opcional

Poda—> cuantización (baja) (la tasa de poda es pequeña, la tasa de cuantización es grande)

 cd micronet/compression/quantization/wbwtab

WBAB

NIN (estructura convolucional normal)

python main.py --W 2 --A 2 --model_type 0 --prune_quant ../../pruning/models_save/nin_finetune.pth

nin_gc (incluida la estructura convolucional de agrupación)

python main.py --W 2 --A 2 --model_type 1 --prune_quant ../../pruning/models_save/nin_gc_retrain.pth

Otras analogías para tomar valores

BN Fusión y prueba de simulación de inferencia cuantitativa

wbwtab

 cd micronet/compression/quantization/wbwtab/bn_fuse

BN_FUSE (Obtenga la estructura y los parámetros de Quant_Model_train y Quant_Bn_Fused_Model_inference)

--model_type, 1 -nin_gc (incluida la estructura convolucional agrupada); 0 - NIN (estructura convolucional normal)

--Prune_quant, Pruning_Quantitative Model Flag

--W, valor de cuantificación de peso

Todos deben ser consistentes con la capacitación cuantitativa, y puede usar el valor predeterminado directamente

nin_gc, cuant_model, wb

python bn_fuse.py --model_type 1 --W 2

nin_gc, prune_quant_model, wb

python bn_fuse.py --model_type 1 --prune_quant --W 2

nin_gc, cuant_model, wt

python bn_fuse.py --model_type 1 --W 3

nin, cuant_model, wb

python bn_fuse.py --model_type 0 --W 2

bn_fused_model_test (prueba en cuant_model_train y cuant_bn_fused_model_inference)

python bn_fused_model_test.py

dorefa

 cd micronet/compression/quantization/wqaq/dorefa/quant_model_test

Quant_model_para (Obtenga la estructura y los parámetros de Quant_model_train y Quant_model_inference)

--model_type, 1 -nin_gc (incluida la estructura convolucional agrupada); 0 - NIN (estructura convolucional normal)

--Prune_quant, Pruning_Quantitative Model Flag

--w_bits, número de cuantificación de peso de bits; --A_BITS, Número de cuantificación de activación de bits

Todos deben ser consistentes con la capacitación cuantitativa, y puede usar el valor predeterminado directamente

nin_gc, cuant_model, w8a8

python quant_model_para.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python quant_model_para.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

nin, cuant_model, w8a8

python quant_model_para.py --model_type 0 --w_bits 8 --a_bits 8

Quant_model_test (prueba cuant_model_train y cuant_model_inference)

python quant_model_test.py

IAO

Tenga en cuenta que cuando la capacitación cuantifica - -BN_FUSE debe establecerse en True

 cd micronet/compression/quantization/wqaq/iao/bn_fuse

bn_fuse (obtenga la estructura y los parámetros de Quant_BN_FUSED_MODEL_TRAIN y Quant_BN_FUSED_MODEL_INEFERIOR)

--model_type, 1 -nin_gc (incluida la estructura convolucional agrupada); 0 - NIN (estructura convolucional normal)

--Prune_quant, Pruning_Quantitative Model Flag

--w_bits, número de cuantificación de peso de bits; --A_BITS, Número de cuantificación de activación de bits

--q_type, 0 -simétrico; 1 - Asimétrico

--q_level, 0 -nivel de canal; 1 - Nivel

Todos deben ser consistentes con la capacitación cuantitativa, y puede usar el valor predeterminado directamente

nin_gc, cuant_model, w8a8

python bn_fuse.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python bn_fuse.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

nin, cuant_model, w8a8

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8

nin_gc, cuant_model, w8a8, asimetría, jerarquía

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8 --q_type 1 --q_level 1

bn_fused_model_test (prueba en cuant_bn_fused_model_train y cuant_bn_fused_model_inference)

python bn_fused_model_test.py

Selección de equipos

Ahora admite CPU y GPU (tarjeta única, tarjeta múltiple)

--CPU Usar CPU,--GPU_ID use y seleccione GPU

python main.py --cpu

Tarjeta única de GPU

python main.py --gpu_id 0

python main.py --gpu_id 1

GPU multicard

python main.py --gpu_id 0,1

python main.py --gpu_id 0,1,2

Por defecto, use la tarjeta completa del servidor

desplegar

Tensor

Actualmente, solo se proporciona un código de módulo central relevante y más adelante se agregará una demostración ejecutable completa.

Interpretaciones relacionadas

Tensorrt-Básicos
tensorrt-op/dynamic_shape

emigrar

Capacitación cuantitativa

Ejemplo de Lenet

cuant_test_manual.py

Se puede cuantificar un modelo (alto bit (> 2b), bajo bits (≤2b)/ternario y binario) simplemente reemplazando OP con Quant_op .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

# ``quantize`` is quant_module, ``QuantConv2d``, ``QuantLinear``, ``QuantMaxPool2d``, ``QuantReLU`` are quant_op
from micronet . compression . quantization . wbwtab . quantize import (
    QuantConv2d as quant_conv_wbwtab ,
)
from micronet . compression . quantization . wbwtab . quantize import (
    ActivationQuantizer as quant_relu_wbwtab ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantConv2d as quant_conv_dorefa ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantLinear as quant_linear_dorefa ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantConv2d as quant_conv_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantLinear as quant_linear_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantMaxPool2d as quant_max_pool_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantReLU as quant_relu_iao ,
)


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetWbWtAb ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetWbWtAb , self ). __init__ ()
        self . conv1 = quant_conv_wbwtab ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_wbwtab ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = quant_relu_wbwtab ()

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetDoReFa ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetDoReFa , self ). __init__ ()
        self . conv1 = quant_conv_dorefa ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_dorefa ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_dorefa ( 320 , 50 )
        self . fc2 = quant_linear_dorefa ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetIAO ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetIAO , self ). __init__ ()
        self . conv1 = quant_conv_iao ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_iao ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_iao ( 320 , 50 )
        self . fc2 = quant_linear_iao ( 50 , 10 )
        self . max_pool = quant_max_pool_iao ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


lenet = LeNet ()
quant_lenet_wbwtab = QuantLeNetWbWtAb ()
quant_lenet_dorefa = QuantLeNetDoReFa ()
quant_lenet_iao = QuantLeNetIAO ()

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_wbwtab*** n " , quant_lenet_wbwtab )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

cuant_test_auto.py

Se puede cuantificar un modelo (alto bit (> 2b), bajo bits (≤2b)/ternario y binario) simplemente usando micronet.compression.quantization.quantize.prepare (modelo) .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

import micronet . compression . quantization . wqaq . dorefa . quantize as quant_dorefa
import micronet . compression . quantization . wqaq . iao . quantize as quant_iao


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


"""
--w_bits --a_bits, 权重W和特征A量化位数
--q_type, 量化类型(0-对称, 1-非对称)
--q_level, 权重量化级别(0-通道级, 1-层级)
--weight_observer, weight_observer选择(0-MinMaxObserver, 1-MovingAverageMinMaxObserver)
--bn_fuse, 量化中bn融合标志
--bn_fuse_calib, 量化中bn融合校准标志
--pretrained_model, 预训练浮点模型
--qaft, qaft标志
--ptq, ptq标志
--percentile, ptq校准的比例
"""
lenet = LeNet ()
quant_lenet_dorefa = quant_dorefa . prepare ( lenet , inplace = False , a_bits = 8 , w_bits = 8 )
quant_lenet_iao = quant_iao . prepare (
    lenet ,
    inplace = False ,
    a_bits = 8 ,
    w_bits = 8 ,
    q_type = 0 ,
    q_level = 0 ,
    weight_observer = 0 ,
    bn_fuse = False ,
    bn_fuse_calib = False ,
    pretrained_model = False ,
    qaft = False ,
    ptq = False ,
    percentile = 0.9999 ,
)

# if ptq == False, do qat/qaft, need train
# if ptq == True, do ptq, don't need train
# you can refer to micronet/compression/quantization/wqaq/iao/main.py

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

prueba

cuant_test_manual

python -c " import micronet; micronet.quant_test_manual() "

cuant_test_auto

python -c " import micronet; micronet.quant_test_auto() "

Al emitir "Quant_model está listo", Microt está listo.

Razonamiento cuantitativo

Referencia BN Fusión y prueba de simulación de inferencia cuantitativa

Comparación de datos comprimidos modelo (solo para referencia)

El siguiente es un ejemplo CIFAR10, donde puede probar otros métodos de compresión combinados en modelos más redundantes y conjuntos de datos más grandes.

tipo	W (bits)	A (bits)	Accidentista	Gflops	Para (m)	Tamaño (MB)	Tasa de compresión	pérdida
Modelo original (nin)	FP32	FP32	91.01%	0.15	0.67	2.68	***	***
Uso de la estructura de convolución de agrupación (nin_gc)	FP32	FP32	91.04%	0.15	0.58	2.32	13.43%	-0.03%
Poda	FP32	FP32	90.26%	0.09	0.32	1.28	52.24%	0.75%
Cuantificación	1	FP32	90.93%	***	0.58	0.204	92.39%	0.08%
Cuantificación	1.5	FP32	91%	***	0.58	0.272	89.85%	0.01%
Cuantificación	1	1	86.23%	***	0.58	0.204	92.39%	4.78%
Cuantificación	1.5	1	86.48%	***	0.58	0.272	89.85%	4.53%
Cuantificación (dorefa)	8	8	91.03%	***	0.58	0.596	77.76%	-0.02%
Cuantificación (IAO, cuantificación completa, simétrica/por canal/bn_fuse)	8	8	90.99%	***	0.58	0.596	77.76%	0.02%
Agrupación + poda + cuantización	1.5	1	86.13%	***	0.32	0.19	92.91%	4.88%

--train_batch_size 256, tarjeta única

Información relacionada

compresión

Cuantificación

Ruing

Valor binario

BinarizedNeuralNetworks: Capacitarnetworks con pesas y activaciones CONSTRUICIÓN TO +1 OR - 1
Xnor-Net: ImagenetClassi ﬁ cusingBinary ConvolutionalNetWorks
Un estudio empírico de la optimización de las redes neuronales binarias
Una revisión de las redes neuronales binarizadas

Tres valores

Redes de peso ternarias

Altísimo

Dorefa-Net: Entrenamiento de redes neuronales convolucionales de bajo ancho de bits con gradientes de bajo ancho de bits
Cuantización y capacitación de redes neuronales para una inferencia eficiente entera-aritmética solo
Cuantización de redes convolucionales profundas para una inferencia eficiente: un documento técnico