Скачать micronet - micronet исходный код скачать

микророн

«В настоящее время в области глубокого обучения существует две школы. Одной из них является академическая школа, которая изучает мощные и сложные модельные сети и экспериментальные методы для достижения более высокой производительности; другая - инженерная школа, которая направлена на то, чтобы внедрить алгоритмы более стабильно и эффективно на платформе для оборудования. Хотя сложные модели применяются в сложных возможностях, которые применяют сложные. Растущий масштаб глубоких нейронных сетей вызвал огромные проблемы для развертывания глубокого обучения на мобильном терминале, а сжатие и развертывание модели глубокого обучения стали одной из областей исследований, на которой сосредоточены как академические круги, так и отрасль ».

Введение проекта

Микрот, модель сжатия и развертывание LIB.

сжатие

Количественная оценка: высокий (> 2b): QAT, PTQ, QAFT; С низким содержанием (≤2b)/тройной и бинарной: QAT
Обрезка: нормальная, регулярная и сгруппированная обрезка сверточной структуры
BN Fusion для бинарной квантования для функции (a) (Переплет BN Параметры -> cons)
BN Fusion квантован с помощью высокого BIT (при обучении квантовании, сначала слияния и затем квантования, слияния: параметры BN-> Conv Weight W и смещение B)

развертывать

Tensorrt (FP32/FP16/Int8 (PTQ-калибровка), Op-Adapt (upsample), Dynamic_shape и т. Д.)

Структура кода

code_structure

 micronet
├── __init__.py
├── base_module
│   ├── __init__.py
│   └── op.py
├── compression
│   ├── README.md
│   ├── __init__.py
│   ├── pruning
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── gc_prune.py
│   │   ├── main.py
│   │   ├── models_save
│   │   │   └── models_save.txt
│   │   └── normal_regular_prune.py
│   └── quantization
│       ├── README.md
│       ├── __init__.py
│       ├── wbwtab
│       │   ├── __init__.py
│       │   ├── bn_fuse
│       │   │   ├── bn_fuse.py
│       │   │   ├── bn_fused_model_test.py
│       │   │   └── models_save
│       │   │       └── models_save.txt
│       │   ├── main.py
│       │   ├── models_save
│       │   │   └── models_save.txt
│       │   └── quantize.py
│       └── wqaq
│           ├── __init__.py
│           ├── dorefa
│           │   ├── __init__.py
│           │   ├── main.py
│           │   ├── models_save
│           │   │   └── models_save.txt
│           │   ├── quant_model_test
│           │   │   ├── models_save
│           │   │   │   └── models_save.txt
│           │   │   ├── quant_model_para.py
│           │   │   └── quant_model_test.py
│           │   └── quantize.py
│           └── iao
│               ├── __init__.py
│               ├── bn_fuse
│               │   ├── bn_fuse.py
│               │   ├── bn_fused_model_test.py
│               │   └── models_save
│               │       └── models_save.txt
│               ├── main.py
│               ├── models_save
│               │   └── models_save.txt
│               └── quantize.py
├── data
│   └── data.txt
├── deploy
│   ├── README.md
│   ├── __init__.py
│   └── tensorrt
│       ├── README.md
│       ├── __init__.py
│       ├── calibrator.py
│       ├── eval_trt.py
│       ├── models
│       │   ├── __init__.py
│       │   └── models_trt.py
│       ├── models_save
│       │   └── calibration_seg.cache
│       ├── test_trt.py
│       └── util_trt.py
├── models
│   ├── __init__.py
│   ├── nin.py
│   ├── nin_gc.py
│   └── resnet.py
└── readme_imgs
    ├── code_structure.jpg
    └── micronet.xmind

Проект Прогресс

2019.12.4 , первое представление
12.8 , функция Dorefa (A) масштабируется сначала (* 0,1) перед квантованием, а затем усекайте, чтобы уменьшить ошибку усечения
12.11 , добавить диаграмму структуры кода проекта
12.12, улучшить примеры использования
12.14, добавлено: 1. Ситуация квантования BN Fusion (W Трехзначное/двоичное значение) является необязательной, то есть при квантовании обучения выбирается тройное значение/двоичное значение, и вот соответствующий выбор; 2. Обработка ядра свертки (конвей) без предвзятости во время слияния BN
12.17 , добавьте сравнение данных до и после сжатия модели (пример)
12.20, добавить параметры устройства (ЦП, графический процессор (одиночная карта, несколько карт)))
12.27 , Дополнительные связанные документы
12.29, Удаление предела квантования с высокой кусочкой в пределах 8-битных, то есть теперь он может количественно определить 10-битную, 16-битную и т. Д.
2020.2.17 , 1. Упростить W трехзначный/двоичный код квантования; 2. Ускорение W Трехзначное обучение квантованию
2.18 , Оптимизируйте слияние BN для двоичных значений функции (A): Удалите ограничения на гамма -параметрах BN слоя BN, то есть BN может нормально обучаться во время слияния в этом случае.
2.24 , оптимизируйте трех/бинарную структуру организации кода квантования снова для повышения переносимости, старая версия действительно нелегко пересаживать. Текущий метод порта: замените конверт, который вы хотите количественно оценить с помощью QuantConv2D в сжатии/квантовании/WBWTAB/Models/util_wbwtab.py. Вы можете обратиться к методу использования в NIN_GC.PY по этому пути
3.1 , добавлено: 1. Метод квантования Google с высокой квантованием; 2. BN слияние квантования с высоким батом во время обучения
3.2 , 3.3, регулярируйте общую структуру кода квантования. В настоящее время все методы квантования могут принять аналогичный метод порта: конвей (или FC, в настоящее время поддерживаемый DOREFA, другие методы аналогичны записи) можно заменить QUANTCONV2D (или QUANTILINEAR) в моделях/util_wxax.py. Вы можете обратиться к методам использования в NIN_GC.PY в соответствии с этим путем для порта (классификация, обнаружение, сегментация и т. Д. Применимы, но их необходимо отлаживать в соответствии с фактической ситуацией)
3.4 . Регулярно оптимизируйте соответствующий код реализации «BN Fusion для функции (a) двоичного значения» в wbwtab/bn_fuse и может выполнять тест слияния и сравнения модели до и после слияния (Точность/скорость/(размер))
3.11, отрегулируйте параметр импульса слоя BN в сжатии/WQAQ/IAO (0,1 -> 0,01), ослабьте долю пакетных статистических параметров и подавляйте дрожание, вызванное квантованием в определенной степени. После экспериментов количественное обучение является более стабильным, ACC увеличивается примерно на 1%.
3.13 , Обновите диаграмму структуры кода
4.6, Исправлена проблема W_CLIP в тренировке бинарной квантования (до этого, из -за этого, точность обучения бинарной квантовании не была улучшена, и теперь его можно использовать нормально) (также исправила проблему неспособности найти некоторые модули, такие как модели/util_wxax.py)
12.14 , 1. Улучшение структуры кода; 2. Добавить Deploy-Tensorrt (основной модуль, но еще не работает)
12.18, 1. Улучшить структуру кода/модуль ссылки/module_name; 2. Добавить демонстрацию трансферного использования
12.21 , Улучшение трубопровода и кода
2021.1.4 , добавьте другие Quant_op
1.5, добавьте выбор QUANT_WEELES и за выбор
1.7 , Исправьте ошибку IAO. Ошибка связана с ошибкой мин/максимума.
1.8, 1. Улучшить Quant_para Save. Теперь сохранить только шкалу и Zero_point; 2. Добавить дополнительную weet_observer (minmaxobserver или rovestaverageminmaxobserver)
1.11 , исправить ошибку в Binary_a (1/0) и Binary_w Предварительная обработка
1.12 , добавить "PIP установка"
1.22 , добавьте auto_insert_quant_op (это все еще нужно улучшить)
1.27 , улучшить auto_insert_quant_op (теперь вы можете легко использовать квантование, как Quant_test_auto)
1.28, 1. Исправить трубопровод и код 2. Улучшение структуры кода
2.1 , улучшить wbwtab_bn_fuse
2.4 , 1. Добавить wqaq_bn_fuse; 2. Добавить QUANT_MODEL_INFEER_SIMULET; 3. Улучшение формата кода
4.30, 1. Обновление code_structure img; 2. Исправьте IAO's Quad_weem_range, Quant_contrans и Quant_bn_fuse_conv Предварительный
5.4 , добавьте QAFT , полезно повысить точность квантования
5.6 , добавить PTQ , его точность квантования также хороша
5.11, добавьте флаг bn_fuse_calib
5.14 , 1. Измените ste на clip_ste , полезно улучшить Quant_train; 2. Удалить QUANT_RELU и добавить QUANT_LEAKY_RELU
5.15, Исправьте ошибку в QUANT_MODEL_PARA
6.7 , добавить QUANT_ADD (необходимо использовать op base_module и QUANT_RESNET DEMO
6.9 , IAO_QUANT Support Multi GPU
6.16, исправить Quant_round () и Quant_binary ()
10.6, формат

Экологические требования

Python> = 3,5
TORCH> = 1.1.0
TOCHVISON> = 0,3,0
Numpy
ONNX == 1.6.0
Tensorrt == 7.0.0.11

Установить

Пипи

pip install micronet -i https://pypi.org/simple

GitHub

git clone https://github.com/666DZY666/micronet.git
cd micronet
python setup.py install

проверять

python -c " import micronet; print(micronet.__version__) "

тест

Установите с GitHub

сжатие

Количественная оценка

-Refine, может загрузить параметры модели с плавающей запятой и квантовать на основе их на основе их

wbwtab

--W-A, вес W и оснащен квантованным значением

 cd micronet/compression/quantization/wbwtab

WBAB

python main.py --W 2 --A 2

WBA32

python main.py --W 2 --A 32

WTAB

python main.py --W 3 --A 2

WTA32

python main.py --W 3 --A 32

WQAQ

--W_BITS --A_BITS, Вес W и оснащен квантовым количеством битов

Дорефа

 cd micronet/compression/quantization/wqaq/dorefa

W16A16

python main.py --w_bits 16 --a_bits 16

W8A8

python main.py --w_bits 8 --a_bits 8

W4A4

python main.py --w_bits 4 --a_bits 4

Аналогия с другими битами аналогии

IAO

 cd micronet/compression/quantization/wqaq/iao

Количественный выбор цифр, такой же, как Dorefa

Одиночная карта

QAT/PTQ -> QAFT

! Обратите внимание, что вам нужно сделать QAFT после QAT/PTQ!

-q_type, тип квантования (0-симметричный, 1-симметричный)

-q_level, уровень веса (0-канальный уровень, 1-й уровень)

--Weight_observer, Wews_observer Selection (0-MinmaxObServer, 1-MovingAverageminMaxObserver)

-bn_fuse, флаг слияния BN в количественной оценке

-bn_fuse_calib, BN-калибровочная отметка в квантовании

-Подушный

-Qaft, Qaft Flag

--ptq, ptq_observer

--ptq_control, ptq_control

--ptq_batch, количество партий PTQ

-Percentile, коэффициент калибровки PTQ

Кат

По умолчанию: симметричная, (вес) квантование на уровне канала, BN не слияние, Whew_observer-Minmaxobserver, предварительно обученная модель с плавающей запятой не загружена, Qat

python main.py --q_type 0 --q_level 0 --weight_observer 0

Symmetric, (вес) квантование уровня канала, BN не Fusion, Whews_observer-MovingAverageminMaxObserver

python main.py --q_type 0 --q_level 0 --weight_observer 1

Симметричная, (вес) квантование уровня, BN не слияет

python main.py --q_type 0 --q_level 1

Асимметричная, (вес) квантование на уровне канала BN не слияет

python main.py --q_type 1 --q_level 0

Асимметричная (веса) квантование уровня, BN не сливается

python main.py --q_type 1 --q_level 1

Симметричная, (вес) квантование на уровне канала, BN Fusion

python main.py --q_type 0 --q_level 0 --bn_fuse

Симметричная, (вес) квантование уровня, слияние BN

python main.py --q_type 0 --q_level 1 --bn_fuse

Асимметричная, (вес) квантование на уровне канала, BN Fusion

python main.py --q_type 1 --q_level 0 --bn_fuse

Асимметричный, (вес) квантование уровня, слияние BN

python main.py --q_type 1 --q_level 1 --bn_fuse

Симметричная, (вес) квантование на уровне канала, калибровка слияния BN

python main.py --q_type 0 --q_level 0 --bn_fuse --bn_fuse_calib

Ptq

Предварительно обученная модель с плавающей запятой должна быть загружена, которая может быть получена путем нормальной тренировки по обрезке.

Симметричная, (вес) квантование на уровне канала, BN Fusion

python main.py --refine ../../../pruning/models_save/nin_gc.pth --q_level 0 --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Другая ситуация аналогии

Qaft

! Обратите внимание, что вам нужно сделать QAFT после QAT/PTQ!

Кат -> Кафт

Симметричная, (вес) квантование на уровне канала, BN Fusion

python main.py --resume models_save/nin_gc_bn_fused.pth --q_type 0 --q_level 0 --bn_fuse --qaft --lr 0.00001

Другая ситуация аналогии

PTQ -> QAFT

Симметричная, (вес) квантование на уровне канала, BN Fusion

python main.py --resume models_save/nin_gc_bn_fused.pth --q_level 0 --bn_fuse --qaft --lr 0.00001 --ptq

Другая ситуация аналогии

Обрезка

Разреженная тренировка -> Обрезка -> тонкая корректировка

 cd micronet/compression/pruning

Разреженное обучение

-SR Sparse Знак

-S Sparse Scree (необходимо корректировать в соответствии с условиями набора данных и модели)

-Модель модели модели

нин (нормальная сверточная структура)

python main.py -sr --s 0.0001 --model_type 0

nin_gc (включая группировку сверточной структуры)

python main.py -sr --s 0.001 --model_type 1

Обрезка

-Процедура обрезки

-normal_regular нормальные, регулярные флаги обрезки и регулярная база обрезки (если установлено на n, количество фильтров на слой модели после обрезки, кратно N)

-Модель модельного пути после разреженного обучения

-Соберите путь модели, сохраненный после обрезки (путь был дан по умолчанию и может быть изменен в соответствии с фактической ситуацией)

Нормальная обрезка (NIN)

python normal_regular_prune.py --percent 0.5 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

Регулярная обрезка (NIN)

python normal_regular_prune.py --percent 0.5 --normal_regular 8 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

или

python normal_regular_prune.py --percent 0.5 --normal_regular 16 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

Сгруппированная обрезка сверточной структуры (NIN_GC)

python gc_prune.py --percent 0.4 --model models_save/nin_gc_sparse.pth

Прекрасная регулировка

--prune_refine Путь модели после обрезки (настраиваемая настраиваемая настройка)

нин

python main.py --model_type 0 --prune_refine models_save/nin_prune.pth

nin_gc

Вам нужно пройти в CFG новой модели, полученной после обрезки

нравиться

python main.py --model_type 1 --gc_prune_refine 154 162 144 304 320 320 608 584

Обрезка -> количественная оценка (обратите внимание на скорость обрезки и равновесие скорости квантования)

Загрузите обрезку с плавающей запятой, а затем квантовать ее

Обрезка -> Количественная оценка (высокий уровень) (скорость обрезки слишком велика, а скорость квантования слишком мала)

W8A8 (Dorefa)

 cd micronet/compression/quantization/wqaq/dorefa

нин (нормальная сверточная структура)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth

nin_gc (включая группировку сверточной структуры)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth

W8A8 (IAO)

 cd micronet/compression/quantization/wqaq/iao

QAT/PTQ -> QAFT

! Обратите внимание, что вам нужно сделать QAFT после QAT/PTQ!

Кат

BN не слияет

нин (нормальная сверточная структура)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --lr 0.001

nin_gc (включая группировку сверточной структуры)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --lr 0.001

BN Fusion

нин (нормальная сверточная структура)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --lr 0.001

nin_gc (включая группировку сверточной структуры)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --bn_fuse --pretrained_model --lr 0.001

Ptq

нин (нормальная сверточная структура)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Другая ситуация аналогии

Qaft

! Обратите внимание, что вам нужно сделать QAFT после QAT/PTQ!

Кат -> Кафт

BN не слияет

нин (нормальная сверточная структура)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001

nin_gc (включая группировку сверточной структуры)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001

BN Fusion

нин (нормальная сверточная структура)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001

nin_gc (включая группировку сверточной структуры)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001

PTQ -> QAFT

BN не слияет

нин (нормальная сверточная структура)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001 --ptq

nin_gc (включая группировку сверточной структуры)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001 --ptq

BN Fusion

нин (нормальная сверточная структура)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

nin_gc (включая группировку сверточной структуры)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

Другие дополнительные аналогии с количественной конфигурацией

Обрезка -> квантование (низкое) (скорость обрезки невелика, скорость квантования большая)

 cd micronet/compression/quantization/wbwtab

WBAB

нин (нормальная сверточная структура)

python main.py --W 2 --A 2 --model_type 0 --prune_quant ../../pruning/models_save/nin_finetune.pth

nin_gc (включая группировку сверточной структуры)

python main.py --W 2 --A 2 --model_type 1 --prune_quant ../../pruning/models_save/nin_gc_retrain.pth

Другие аналогии с тем

BN Fusion и количественный тест моделирования вывода

wbwtab

 cd micronet/compression/quantization/wbwtab/bn_fuse

bn_fuse (получить структуру и параметры Quant_model_train и Quant_bn_fuss_model_inference)

-model_type, 1 -nin_gc (включая группированную сверточную структуру); 0 - нин (нормальная сверточная структура)

--prune_quant, truning_quantitative Model Flag

--W, значение квантования веса

Все необходимо соответствовать количественному обучению, и вы можете напрямую использовать по умолчанию

nin_gc, Quant_model, WB

python bn_fuse.py --model_type 1 --W 2

nin_gc, prune_quant_model, wb

python bn_fuse.py --model_type 1 --prune_quant --W 2

nin_gc, Quant_model, Wt

python bn_fuse.py --model_type 1 --W 3

NIN, QUANT_MODEL, WB

python bn_fuse.py --model_type 0 --W 2

bn_fused_model_test (тесты на Quant_model_train и Quant_bn_fuse_model_infere)

python bn_fused_model_test.py

Дорефа

 cd micronet/compression/quantization/wqaq/dorefa/quant_model_test

QUANT_MODEL_PARA (Получить структуру и параметры QUANT_MODEL_TRAIN и QUANT_MODEL_INERENCE)

-model_type, 1 -nin_gc (включая группированную сверточную структуру); 0 - нин (нормальная сверточная структура)

--prune_quant, truning_quantitative Model Flag

--W_BITS, Квантование веса. Количество битов; -A_BITS, Квантование активации Количество битов

Все необходимо соответствовать количественному обучению, и вы можете напрямую использовать по умолчанию

nin_gc, Quant_model, w8a8

python quant_model_para.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python quant_model_para.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

NIN, QUANT_MODEL, W8A8

python quant_model_para.py --model_type 0 --w_bits 8 --a_bits 8

QUANT_MODEL_TEST (Тестирует QUANT_MODEL_TRAIN и QUANT_MODEL_INEREN)

python quant_model_test.py

IAO

Обратите внимание, что при квантованном обучении -BN_FUSE должно быть установлено на True

 cd micronet/compression/quantization/wqaq/iao/bn_fuse

bn_fuse (получить структуру и параметры Quant_bn_fuss_model_train и Quant_bn_fuss_model_inference)

-model_type, 1 -nin_gc (включая группированную сверточную структуру); 0 - нин (нормальная сверточная структура)

--prune_quant, truning_quantitative Model Flag

--W_BITS, Квантование веса. Количество битов; -A_BITS, Квантование активации Количество битов

-q_type, 0 -симметричный; 1 - асимметричный

-q_level, 0 -уровень канала; 1 - Уровень

Все необходимо соответствовать количественному обучению, и вы можете напрямую использовать по умолчанию

nin_gc, Quant_model, w8a8

python bn_fuse.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python bn_fuse.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

NIN, QUANT_MODEL, W8A8

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8

nin_gc, Quant_model, w8a8, асимметрия, иерархия

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8 --q_type 1 --q_level 1

bn_fused_model_test (тесты на Quant_bn_fuss_model_train и Quant_bn_fuss_model_inference)

python bn_fused_model_test.py

Выбор оборудования

Теперь поддерживает процессорец и графический процессор (одна карта, несколько карт)

-CPU Используйте ЦП,-GPU_ID Использовать и выберите GPU

Процессор

python main.py --cpu

Графический графический процессор с одной картой

python main.py --gpu_id 0

или

python main.py --gpu_id 1

графический процессор многочарно

python main.py --gpu_id 0,1

или

python main.py --gpu_id 0,1,2

По умолчанию используйте полную карту сервера

развертывать

Тенсорт

В настоящее время предоставляется только соответствующий код модуля основного модуля , и позже будет добавлена полная демонстрация.

Связанные интерпретации

Tensorrt-Basics
tensorrt-op/dynamic_shape

мигрировать

Количественное обучение

Ленет пример

QUANT_TEST_MANUAL.PY

Модель может быть квантована (с высоким содержанием (> 2b), низким содержанием (≤2b)/тройной и двоичной), просто заменив OP Quant_op .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

# ``quantize`` is quant_module, ``QuantConv2d``, ``QuantLinear``, ``QuantMaxPool2d``, ``QuantReLU`` are quant_op
from micronet . compression . quantization . wbwtab . quantize import (
    QuantConv2d as quant_conv_wbwtab ,
)
from micronet . compression . quantization . wbwtab . quantize import (
    ActivationQuantizer as quant_relu_wbwtab ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantConv2d as quant_conv_dorefa ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantLinear as quant_linear_dorefa ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantConv2d as quant_conv_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantLinear as quant_linear_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantMaxPool2d as quant_max_pool_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantReLU as quant_relu_iao ,
)


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetWbWtAb ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetWbWtAb , self ). __init__ ()
        self . conv1 = quant_conv_wbwtab ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_wbwtab ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = quant_relu_wbwtab ()

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetDoReFa ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetDoReFa , self ). __init__ ()
        self . conv1 = quant_conv_dorefa ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_dorefa ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_dorefa ( 320 , 50 )
        self . fc2 = quant_linear_dorefa ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetIAO ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetIAO , self ). __init__ ()
        self . conv1 = quant_conv_iao ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_iao ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_iao ( 320 , 50 )
        self . fc2 = quant_linear_iao ( 50 , 10 )
        self . max_pool = quant_max_pool_iao ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


lenet = LeNet ()
quant_lenet_wbwtab = QuantLeNetWbWtAb ()
quant_lenet_dorefa = QuantLeNetDoReFa ()
quant_lenet_iao = QuantLeNetIAO ()

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_wbwtab*** n " , quant_lenet_wbwtab )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

QUANT_TEST_AUTO.PY

Модель может быть квантована (высокий (> 2b), низкий балл (≤2b)/тройной и двоичный), просто используя micronet.compression.quantization.quantize.prepare (модель) .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

import micronet . compression . quantization . wqaq . dorefa . quantize as quant_dorefa
import micronet . compression . quantization . wqaq . iao . quantize as quant_iao


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


"""
--w_bits --a_bits, 权重W和特征A量化位数
--q_type, 量化类型(0-对称, 1-非对称)
--q_level, 权重量化级别(0-通道级, 1-层级)
--weight_observer, weight_observer选择(0-MinMaxObserver, 1-MovingAverageMinMaxObserver)
--bn_fuse, 量化中bn融合标志
--bn_fuse_calib, 量化中bn融合校准标志
--pretrained_model, 预训练浮点模型
--qaft, qaft标志
--ptq, ptq标志
--percentile, ptq校准的比例
"""
lenet = LeNet ()
quant_lenet_dorefa = quant_dorefa . prepare ( lenet , inplace = False , a_bits = 8 , w_bits = 8 )
quant_lenet_iao = quant_iao . prepare (
    lenet ,
    inplace = False ,
    a_bits = 8 ,
    w_bits = 8 ,
    q_type = 0 ,
    q_level = 0 ,
    weight_observer = 0 ,
    bn_fuse = False ,
    bn_fuse_calib = False ,
    pretrained_model = False ,
    qaft = False ,
    ptq = False ,
    percentile = 0.9999 ,
)

# if ptq == False, do qat/qaft, need train
# if ptq == True, do ptq, don't need train
# you can refer to micronet/compression/quantization/wqaq/iao/main.py

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

тест

QUANT_TEST_MANUAL

python -c " import micronet; micronet.quant_test_manual() "

QUANT_TEST_AUTO

python -c " import micronet; micronet.quant_test_auto() "

При выводе «Quant_model готов», Microt готов.

Количественные рассуждения

Справочный тест моделирования слияния и количественного вывода

Сравнение сжатых модельных данных (только для справки)

Ниже приведен пример CIFAR10, где вы можете попробовать другие комбинированные методы сжатия на более избыточных моделях и более крупных наборах данных.

тип	W (биты)	А (биты)	Акк	Gflops	Пара (м)	Размер (MB)	Скорость сжатия	потеря
Оригинальная модель (NIN)	FP32	FP32	91,01%	0,15	0,67	2.68	***	***
Использование группирующей структуры свертки (NIN_GC)	FP32	FP32	91,04%	0,15	0,58	2.32	13,43%	-0,03%
Обрезка	FP32	FP32	90,26%	0,09	0,32	1.28	52,24%	0,75%
Количественная оценка	1	FP32	90,93%	***	0,58	0,204	92,39%	0,08%
Количественная оценка	1.5	FP32	91%	***	0,58	0,272	89,85%	0,01%
Количественная оценка	1	1	86,23%	***	0,58	0,204	92,39%	4,78%
Количественная оценка	1.5	1	86,48%	***	0,58	0,272	89,85%	4,53%
Количественная оценка (Dorefa)	8	8	91,03%	***	0,58	0,596	77,76%	-0,02%
Количественная оценка (IAO, полная количественная оценка, симметричная/за канал/bn_fuse)	8	8	90,99%	***	0,58	0,596	77,76%	0,02%
Группировка + обрезка + квантование	1.5	1	86,13%	***	0,32	0,19	92,91%	4,88%

-train_batch_size 256, одиночная карта

Связанная информация

сжатие

Количественная оценка

Кат

Бинарное значение

Binarizedneuralnetworks: Trainingnuralnetworks без веса и активации, созданные для +1 или -1
XNOR-NET: ImageNetClassieBingBinary ConvolutionAlneuralNetworks
Эмпирическое исследование оптимизации бинарных нейронных сетей
Обзор бинаризированных нейронных сетей

Три значения

Тройные весовые сети

Высокий

Dorefa-Net: обучение с низкой прохождениями.
Квантование и обучение нейронных сетей для эффективного целочисленного арифметического вывода только
Квантование глубоких сверточных сетей для эффективного вывода: белый документ