micronetダウンロードmicronetソースコードのダウンロード

ミクロネット

「現在、深い学習の分野には2つの学校があります。1つは、より高いパフォーマンスを追求するために強力で複雑なモデルネットワークと実験方法を研究する学術学校です。もう1つは、ハードウェアプラットフォームでより安定かつ効率的にアルゴリズムを実装することを目的としています。深いニューラルネットワークは、モバイルターミナルでのディープラーニングの展開に大きな課題をもたらし、深い学習モデルの圧縮と展開は、学界と産業の両方が焦点を当てている研究分野の1つになりました。」

プロジェクトの紹介

マイクロット、モデル圧縮とLIBを展開します。

圧縮

定量化：High-Bit（> 2B）：QAT、PTQ、QAFT;低ビット（≤2B）/三元およびバイナリ：QAT
剪定：通常、規則的、グループ化された畳み込み構造剪定
特徴のバイナリ量子化のためのBN融合（a）（結合BNパラメーター - > conv）
BN融合は高ビットによって量子化されています（トレーニング量子化、最初の融合、次に量子化、融合：BNパラメーター - > Conv Weight WおよびBias b）

展開する

Tensorrt（FP32/FP16/INT8（PTQ-Calibration）、op-adapt（upsample）、dynamic_shapeなど）

コード構造

code_structure

 micronet
├── __init__.py
├── base_module
│   ├── __init__.py
│   └── op.py
├── compression
│   ├── README.md
│   ├── __init__.py
│   ├── pruning
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── gc_prune.py
│   │   ├── main.py
│   │   ├── models_save
│   │   │   └── models_save.txt
│   │   └── normal_regular_prune.py
│   └── quantization
│       ├── README.md
│       ├── __init__.py
│       ├── wbwtab
│       │   ├── __init__.py
│       │   ├── bn_fuse
│       │   │   ├── bn_fuse.py
│       │   │   ├── bn_fused_model_test.py
│       │   │   └── models_save
│       │   │       └── models_save.txt
│       │   ├── main.py
│       │   ├── models_save
│       │   │   └── models_save.txt
│       │   └── quantize.py
│       └── wqaq
│           ├── __init__.py
│           ├── dorefa
│           │   ├── __init__.py
│           │   ├── main.py
│           │   ├── models_save
│           │   │   └── models_save.txt
│           │   ├── quant_model_test
│           │   │   ├── models_save
│           │   │   │   └── models_save.txt
│           │   │   ├── quant_model_para.py
│           │   │   └── quant_model_test.py
│           │   └── quantize.py
│           └── iao
│               ├── __init__.py
│               ├── bn_fuse
│               │   ├── bn_fuse.py
│               │   ├── bn_fused_model_test.py
│               │   └── models_save
│               │       └── models_save.txt
│               ├── main.py
│               ├── models_save
│               │   └── models_save.txt
│               └── quantize.py
├── data
│   └── data.txt
├── deploy
│   ├── README.md
│   ├── __init__.py
│   └── tensorrt
│       ├── README.md
│       ├── __init__.py
│       ├── calibrator.py
│       ├── eval_trt.py
│       ├── models
│       │   ├── __init__.py
│       │   └── models_trt.py
│       ├── models_save
│       │   └── calibration_seg.cache
│       ├── test_trt.py
│       └── util_trt.py
├── models
│   ├── __init__.py
│   ├── nin.py
│   ├── nin_gc.py
│   └── resnet.py
└── readme_imgs
    ├── code_structure.jpg
    └── micronet.xmind

プロジェクトの進捗

2019.12.4 、最初に送信
12.8 、Dorefa機能（a）は量子化前に最初にスケーリングされ（* 0.1）、次に切り捨てて切り捨て誤差を減らす
12.11 、プロジェクトコード構造図を追加します
12.12、使用例を改善します
12.14、追加：1。BN融合の量子化状況（W 3価値/バイナリ値）はオプションです。つまり、トレーニング量子化の場合、W 3価値/バイナリ値が選択され、対応する選択があります。 2。BN融合中にバイアスなしの畳み込みカーネル（CONV）の処理
12.17 、モデル圧縮の前後のデータ比較を追加（例）
12.20、デバイスオプションを追加（CPU、GPU（シングルカード、複数カード））
12.27 、補足関連の論文
12.29、8ビット内の高ビット量子化の制限を削除すると、10ビット、16ビットなどに定量化できるようになりました。
2020.2.17、1。W 3価値/バイナリ量子化コードを簡素化します。 2。W 3価値量子化トレーニングを加速します
2.18 、特徴のバイナリ値のBN融合を最適化（a）：BN層ガンマパラメーターの制限を削除します。つまり、この場合、融合中にBNを通常トレーニングできます。
2.24、3つの/バイナリ量子化コード組織構造を再度最適化して、携帯性を高めるために、古いバージョンは実際に移植するのは簡単ではありません。現在の移植方法：圧縮/量子化/wbwtab/models/util_wbwtab.pyのQuantConv2Dで定量化するCONPを交換します。このパスの下でnin_gc.pyの使用方法を参照できます
3.1 、追加：1。Googleのハイビット量子化方法。 2。トレーニング中の高ビット量子化のBN融合
3.2、3.3 、量子化コードの全体的な構造を正規化します。現在、すべての量子化方法は同様の移植方法を採用できます：CONV（またはFC、現在Dorefaがサポートしている、他の方法は書き込みに似ています）は、モデル/util_wxax.pyのQuantConv2D（またはQuantLinear）に置き換えることができます。このパスでは、移植のためのこのパスの下でnin_gc.pyの使用方法を参照できます（分類、検出、セグメンテーションなどが適用されますが、実際の状況に従ってデバッグする必要があります）
3.4 。 wbwtab/bn_fuseの「機能（a）バイナリ値」の「Bn Fusion（a）バイナリ値」の関連する実装コードを定期的に最適化し、融合前後のBN融合とモデルの比較テストを実行できます（精度/速度/（サイズ））
3.11、圧縮/WQAQ/IAO（0.1 - > 0.01）のBN層運動量パラメーターを調整し、バッチ統計パラメーターの割合を弱め、量子化によって引き起こされるジッターをある程度抑制します。実験の後、定量的トレーニングはより安定し、ACCは約1％増加します。
3.13 、コード構造図を更新します
4.6、バイナリ量子化トレーニングにおけるW_CLIPの問題を修正しました（このため、バイナリ量子化トレーニングの精度は改善されず、今では正常に使用できます）（モデル/util_wxax.pyなどのいくつかのモジュールを見つけることができないという問題を修正しました）
12.14、1 。コード構造の改善。 2。Deploy-Tensorrt（メインモジュール、まだ実行されていない）を追加
12.18、1。コード構造/モジュールリファレンス/module_nameを改善します。 2.転送デモを追加します
12.21 、剪定Quantizationパイプラインとコードを改善します
2021.1.4 、他のQuant_opを追加します
1.5、Quant_Weightのチャネルごとの選択およびレイヤーごとの選択を追加します
1.7 、Iaoの損失-Nanバグを修正します。バグは、チャネルごとのMIN/MAXエラーによるものです
1.8、1。Quant_Paraを改善します。これで、スケールとzero_pointのみを保存します。 2.オプションのweight_observer（minmaxobserverまたはmovingaverageminmaxobserverを追加）
1.11 、Binary_a（1/0）およびBinary_W Preprocessingのバグを修正します
1.12 、「PIPインストール」を追加します
1.22 、auto_insert_quant_opを追加します（これはまだ改善する必要があります）
1.27 、Auto_insert_quant_opを改善します（Quant_test_autoとして量子化を簡単に使用できます）
1.28、1。プルーン定量化パイプラインとコードを修正します。 2。コード構造を改善します
2.1 、wbwtab_bn_fuseを改善します
2.4、1。WQAQ_BN_FUSEを追加; 2。Quant_model_inference_simulationを追加; 3.コード形式を改善します
4.30、1。code_structure imgを更新します。 2。IAOのQuant_Weight_Range、Quant_Contrans、Quant_bn_fuse_conv pretrained_model bn_para load bug
5.4 、 Qaftを追加してください、量子化精度を改善することは有益です
5.6 、 PTQを追加してください、その量子化精度も良好です
5.11、bn_fuse_calibフラグを追加します
5.14、1。steをClip_steに変更すると、Quant_trainを改善することが有益です。 2. QUANT_RELUを取り外して、Quant_Leaky_Reluを追加します
5.15、QUANT_MODEL_PARAのバグを修正してください
6.7 、Quant_addを追加し（Base_Module's OPを使用する必要があります）、Quant_resnetデモ
6.9 、IAO_QUANTサポートマルチGPU
6.16、fix quant_round（）およびquant_binary（）
10.6、フォーマット

環境要件

Python> = 3.5
トーチ> = 1.1.0
Torchvison> = 0.3.0
numpy
onnx == 1.6.0
Tensortrt == 7.0.0.11

インストール

ピピ

pip install micronet -i https://pypi.org/simple

github

git clone https://github.com/666DZY666/micronet.git
cd micronet
python setup.py install

確認する

python -c " import micronet; print(micronet.__version__) "

テスト

Githubからインストールします

圧縮

定量化

-refine、前処理されたフローティングポイントモデルパラメーターをロードし、それらに基づいてそれらを量子化できます

wbwtab

-w-w、重量w、および量子化された値を備えています

 cd micronet/compression/quantization/wbwtab

wbab

python main.py --W 2 --A 2

WBA32

python main.py --W 2 --A 32

wtab

python main.py --W 3 --A 2

WTA32

python main.py --W 3 --A 32

WQAQ

-w_bits -a_bits、weight w、およびQuantized bit countを備えています

ドレファ

 cd micronet/compression/quantization/wqaq/dorefa

W16A16

python main.py --w_bits 16 --a_bits 16

W8A8

python main.py --w_bits 8 --a_bits 8

W4A4

python main.py --w_bits 4 --a_bits 4

他のビットの状況の類推

Iao

 cd micronet/compression/quantization/wqaq/iao

Dorefaと同じ定量的数字の選択

シングルカード

QAT/PTQ - > QAFT

！ QAT/PTQの後にQAFTを実行する必要があることに注意してください！

-q_type、量子化タイプ（0サイズ、1つの対称）

-Q_LEVEL、加重レベル（0チャンネルレベル、1レベル）

-weight_observer、weight_observer選択（0-minmaxobserver、1-movingaverageminmaxobserver）

-bn_fuse、bn fusionフラグの定量化

-bn_fuse_calib、bn fusion calbration mark in Quantization

-pretrained_model、前処理されたフローティングポイントモデル

-qaft、qaftフラグ

-ptq、ptq_observer

-ptq_control、ptq_control

-ptq_batch、ptqのバッチ数

-percentile、PTQキャリブレーション比

qat

デフォルト：対称、（重量）チャネルレベルの量子化、BNはフュージョン、weight_observer-minmaxobserver、事前に訓練されたフローティングポイントモデルはロードされていません、qat

python main.py --q_type 0 --q_level 0 --weight_observer 0

対称、（重量）チャネルレベルの量子化、FusionではなくBn、weight_observer-movingaverageminmaxobserver

python main.py --q_type 0 --q_level 0 --weight_observer 1

対称、（重量）レベルの量子化、BNは融合しません

python main.py --q_type 0 --q_level 1

非対称、（重量）チャネルレベルの量子化、BNは融合しません

python main.py --q_type 1 --q_level 0

非対称、（重量）レベルの量子化、BNは融合しません

python main.py --q_type 1 --q_level 1

対称、（重量）チャネルレベルの量子化、BN融合

python main.py --q_type 0 --q_level 0 --bn_fuse

対称、（重量）レベルの量子化、BN融合

python main.py --q_type 0 --q_level 1 --bn_fuse

非対称、（重量）チャネルレベルの量子化、BN融合

python main.py --q_type 1 --q_level 0 --bn_fuse

非対称、（重量）レベルの量子化、BN融合

python main.py --q_type 1 --q_level 1 --bn_fuse

対称、（重量）チャネルレベルの量子化、BN融合キャリブレーション

python main.py --q_type 0 --q_level 0 --bn_fuse --bn_fuse_calib

PTQ

事前に訓練されたフローティングポイントモデルをロードする必要があります。これは、剪定の通常のトレーニングによって取得できます。

対称、（重量）チャネルレベルの量子化、BN融合

python main.py --refine ../../../pruning/models_save/nin_gc.pth --q_level 0 --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

その他の状況の類推

qaft

！ QAT/PTQの後にQAFTを実行する必要があることに注意してください！

QAT - > QAFT

対称、（重量）チャネルレベルの量子化、BN融合

python main.py --resume models_save/nin_gc_bn_fused.pth --q_type 0 --q_level 0 --bn_fuse --qaft --lr 0.00001

その他の状況の類推

PTQ - > QAFT

対称、（重量）チャネルレベルの量子化、BN融合

python main.py --resume models_save/nin_gc_bn_fused.pth --q_level 0 --bn_fuse --qaft --lr 0.00001 --ptq

その他の状況の類推

剪定

スパーストレーニング - >剪定 - >細かい調整

 cd micronet/compression/pruning

まばらなトレーニング

-srスパースサイン

- スパースレート（データセットとモデルの条件に従って調整する必要があります）

-Model_Typeモデルタイプ（0-NIN、1-NIN_GC）

nin（通常の畳み込み構造）

python main.py -sr --s 0.0001 --model_type 0

NIN_GC（畳み込み構造のグループ化を含む）

python main.py -sr --s 0.001 --model_type 1

剪定

- パーセント剪定率

-Normal_Regular Normal、通常の剪定フラグ、および通常の剪定ベース（nに設定されている場合、剪定後のモデルのレイヤーあたりのフィルターの数はnの倍数です）

- スパーストレーニング後のモデルパスをモデル化します

- 剪定後に保存されたモデルパスを保存します（パスはデフォルトで与えられ、実際の状況に応じて変更できます）

通常の剪定（nin）

python normal_regular_prune.py --percent 0.5 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

通常の剪定（nin）

python normal_regular_prune.py --percent 0.5 --normal_regular 8 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

または

python normal_regular_prune.py --percent 0.5 --normal_regular 16 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

グループ化された畳み込み構造剪定（NIN_GC）

python gc_prune.py --percent 0.4 --model models_save/nin_gc_sparse.pth

細かい調整

-prune_Refine剪定後にモデルパスをrefineします（それに基づく微調整）

python main.py --model_type 0 --prune_refine models_save/nin_prune.pth

NIN_GC

剪定後に得られた新しいモデルのCFGを渡す必要があります

のように

python main.py --model_type 1 --gc_prune_refine 154 162 144 304 320 320 608 584

剪定 - >定量化（剪定速度と量子化率の平衡に注意）

剪定されたフローティングポイントモデルをロードしてから量子化します

剪定 - >定量化（高レベル）（剪定速度が大きすぎて量子化速度が小さすぎます）

W8A8（ドレファ）

 cd micronet/compression/quantization/wqaq/dorefa

nin（通常の畳み込み構造）

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth

NIN_GC（畳み込み構造のグループ化を含む）

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth

W8A8（IAO）

 cd micronet/compression/quantization/wqaq/iao

QAT/PTQ - > QAFT

！ QAT/PTQの後にQAFTを実行する必要があることに注意してください！

qat

BNは融合しません

nin（通常の畳み込み構造）

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --lr 0.001

NIN_GC（畳み込み構造のグループ化を含む）

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --lr 0.001

BN融合

nin（通常の畳み込み構造）

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --lr 0.001

NIN_GC（畳み込み構造のグループ化を含む）

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --bn_fuse --pretrained_model --lr 0.001

PTQ

nin（通常の畳み込み構造）

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

その他の状況の類推

qaft

！ QAT/PTQの後にQAFTを実行する必要があることに注意してください！

QAT - > QAFT

BNは融合しません

nin（通常の畳み込み構造）

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001

NIN_GC（畳み込み構造のグループ化を含む）

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001

BN融合

nin（通常の畳み込み構造）

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001

NIN_GC（畳み込み構造のグループ化を含む）

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001

PTQ - > QAFT

BNは融合しません

nin（通常の畳み込み構造）

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001 --ptq

NIN_GC（畳み込み構造のグループ化を含む）

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001 --ptq

BN融合

nin（通常の畳み込み構造）

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

NIN_GC（畳み込み構造のグループ化を含む）

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

その他のオプションの定量的構成アナロジー

剪定 - >量子化（低）（剪定速度は小さく、量子化率は大きい）

 cd micronet/compression/quantization/wbwtab

wbab

nin（通常の畳み込み構造）

python main.py --W 2 --A 2 --model_type 0 --prune_quant ../../pruning/models_save/nin_finetune.pth

NIN_GC（畳み込み構造のグループ化を含む）

python main.py --W 2 --A 2 --model_type 1 --prune_quant ../../pruning/models_save/nin_gc_retrain.pth

その他の価値テーキングアナロジー

BN融合および定量的推論シミュレーションテスト

wbwtab

 cd micronet/compression/quantization/wbwtab/bn_fuse

bn_fuse（QUANT_MODEL_TRAINおよびQUANT_BN_FUSED_MODEL_INFENERINGの構造とパラメーターを取得）

-model_type、1 -nin_gc（グループ化された畳み込み構造を含む）; 0 -nin（通常の畳み込み構造）

-prune_quant、pruning_quantitativeモデルフラグ

-W、体重量子化値

すべてが定量的トレーニングと一致する必要があり、デフォルトを直接使用できます

NIN_GC、QUANT_MODEL、WB

python bn_fuse.py --model_type 1 --W 2

NIN_GC、prune_quant_model、wb

python bn_fuse.py --model_type 1 --prune_quant --W 2

NIN_GC、QUANT_MODEL、WT

python bn_fuse.py --model_type 1 --W 3

Nin、Quant_Model、WB

python bn_fuse.py --model_type 0 --W 2

bn_fused_model_test（Quant_model_trainおよびQuant_bn_fused_model_inferenceのテスト）

python bn_fused_model_test.py

ドレファ

 cd micronet/compression/quantization/wqaq/dorefa/quant_model_test

Quant_model_para（Quant_model_trainとQuant_model_inferenceの構造とパラメーターを取得）

-model_type、1 -nin_gc（グループ化された畳み込み構造を含む）; 0 -nin（通常の畳み込み構造）

-prune_quant、pruning_quantitativeモデルフラグ

-w_bits、体重量子化ビット数。 -a_bits、アクティベーション量子化ビット数

すべてが定量的トレーニングと一致する必要があり、デフォルトを直接使用できます

NIN_GC、QUANT_MODEL、W8A8

python quant_model_para.py --model_type 1 --w_bits 8 --a_bits 8

NIN_GC、prune_quant_model、w8a8

python quant_model_para.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

nin、Quant_Model、W8a8

python quant_model_para.py --model_type 0 --w_bits 8 --a_bits 8

Quant_model_test（tests Quant_model_trainおよびQuant_model_inference）

python quant_model_test.py

Iao

量子化されたトレーニング-BN_FUSEをtrueに設定する必要があることに注意してください

 cd micronet/compression/quantization/wqaq/iao/bn_fuse

bn_fuse（Quant_bn_fused_model_trainとQuant_bn_fused_model_inferenceの構造とパラメーターを取得）

-model_type、1 -nin_gc（グループ化された畳み込み構造を含む）; 0 -nin（通常の畳み込み構造）

-prune_quant、pruning_quantitativeモデルフラグ

-w_bits、体重量子化ビット数。 -a_bits、アクティベーション量子化ビット数

-q_type、0-対称; 1-非対称

-q_level、0-チャネルレベル; 1-レベル

すべてが定量的トレーニングと一致する必要があり、デフォルトを直接使用できます

NIN_GC、QUANT_MODEL、W8A8

python bn_fuse.py --model_type 1 --w_bits 8 --a_bits 8

NIN_GC、prune_quant_model、w8a8

python bn_fuse.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

nin、Quant_Model、W8a8

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8

NIN_GC、QUANT_MODEL、W8A8、非対称性、階層

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8 --q_type 1 --q_level 1

bn_fused_model_test（Quant_bn_fused_model_trainおよびQuant_bn_fused_model_inferenceのテスト）

python bn_fused_model_test.py

機器の選択

CPUとGPU（シングルカード、複数カード）をサポートするようになりました

-CPU使用CPU、-GPU_IDはGPUを使用して選択します

python main.py --cpu

GPUシングルカード

python main.py --gpu_id 0

または

python main.py --gpu_id 1

GPUマルチカード

python main.py --gpu_id 0,1

または

python main.py --gpu_id 0,1,2

デフォルトでは、サーバーフルカードを使用します

展開する

Tensort

現在、関連するコアモジュールコードのみが提供されており、完全に実行可能なデモが後で追加されます。

移動します

定量的トレーニング

レネの例

Quant_test_manual.py

モデルは、 OPをQuant_opに置き換えるだけで、Quant_opに置き換えるだけで、Quantized（highbit（> 2b）、low-bit（≤2b）/vinaryおよびbinary）を量子化できます。

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

# ``quantize`` is quant_module, ``QuantConv2d``, ``QuantLinear``, ``QuantMaxPool2d``, ``QuantReLU`` are quant_op
from micronet . compression . quantization . wbwtab . quantize import (
    QuantConv2d as quant_conv_wbwtab ,
)
from micronet . compression . quantization . wbwtab . quantize import (
    ActivationQuantizer as quant_relu_wbwtab ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantConv2d as quant_conv_dorefa ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantLinear as quant_linear_dorefa ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantConv2d as quant_conv_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantLinear as quant_linear_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantMaxPool2d as quant_max_pool_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantReLU as quant_relu_iao ,
)


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetWbWtAb ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetWbWtAb , self ). __init__ ()
        self . conv1 = quant_conv_wbwtab ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_wbwtab ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = quant_relu_wbwtab ()

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetDoReFa ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetDoReFa , self ). __init__ ()
        self . conv1 = quant_conv_dorefa ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_dorefa ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_dorefa ( 320 , 50 )
        self . fc2 = quant_linear_dorefa ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetIAO ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetIAO , self ). __init__ ()
        self . conv1 = quant_conv_iao ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_iao ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_iao ( 320 , 50 )
        self . fc2 = quant_linear_iao ( 50 , 10 )
        self . max_pool = quant_max_pool_iao ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


lenet = LeNet ()
quant_lenet_wbwtab = QuantLeNetWbWtAb ()
quant_lenet_dorefa = QuantLeNetDoReFa ()
quant_lenet_iao = QuantLeNetIAO ()

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_wbwtab*** n " , quant_lenet_wbwtab )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

Quant_test_auto.py

Micronet.compression.quantization.quantize.prepare（モデル）を使用するだけで、モデルを量子化（ハイビット（> 2b）、低ビット（≤2b）/vinaryおよびbinary）を使用することができます。

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

import micronet . compression . quantization . wqaq . dorefa . quantize as quant_dorefa
import micronet . compression . quantization . wqaq . iao . quantize as quant_iao


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


"""
--w_bits --a_bits, 权重W和特征A量化位数
--q_type, 量化类型(0-对称, 1-非对称)
--q_level, 权重量化级别(0-通道级, 1-层级)
--weight_observer, weight_observer选择(0-MinMaxObserver, 1-MovingAverageMinMaxObserver)
--bn_fuse, 量化中bn融合标志
--bn_fuse_calib, 量化中bn融合校准标志
--pretrained_model, 预训练浮点模型
--qaft, qaft标志
--ptq, ptq标志
--percentile, ptq校准的比例
"""
lenet = LeNet ()
quant_lenet_dorefa = quant_dorefa . prepare ( lenet , inplace = False , a_bits = 8 , w_bits = 8 )
quant_lenet_iao = quant_iao . prepare (
    lenet ,
    inplace = False ,
    a_bits = 8 ,
    w_bits = 8 ,
    q_type = 0 ,
    q_level = 0 ,
    weight_observer = 0 ,
    bn_fuse = False ,
    bn_fuse_calib = False ,
    pretrained_model = False ,
    qaft = False ,
    ptq = False ,
    percentile = 0.9999 ,
)

# if ptq == False, do qat/qaft, need train
# if ptq == True, do ptq, don't need train
# you can refer to micronet/compression/quantization/wqaq/iao/main.py

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

テスト

Quant_test_manual

python -c " import micronet; micronet.quant_test_manual() "

Quant_test_auto

python -c " import micronet; micronet.quant_test_auto() "

「Quant_Modelの準備ができている」出力を出力すると、Microtの準備が整います。

定量的推論

参照BN融合および定量的推論シミュレーションテスト

モデル圧縮データの比較（参照のみ）

以下はCIFAR10の例です。この例では、より冗長モデルとより大きなデータセットで他の複合圧縮方法を試すことができます。

タイプ	W（ビット）	A（ビット）	acc	GFLOPS	パラ（m）	サイズ（MB）	圧縮率	損失
オリジナルモデル（nin）	FP32	FP32	91.01％	0.15	0.67	2.68	***	***
グループ化畳み込み構造（NIN_GC）の使用	FP32	FP32	91.04％	0.15	0.58	2.32	13.43％	-0.03％
剪定	FP32	FP32	90.26％	0.09	0.32	1.28	52.24％	0.75％
定量化	1	FP32	90.93％	***	0.58	0.204	92.39％	0.08％
定量化	1.5	FP32	91％	***	0.58	0.272	89.85％	0.01％
定量化	1	1	86.23％	***	0.58	0.204	92.39％	4.78％
定量化	1.5	1	86.48％	***	0.58	0.272	89.85％	4.53％
定量化（dorefa）	8	8	91.03％	***	0.58	0.596	77.76％	-0.02％
定量化（IAO、完全な定量化、対称/チャンネル/BN_FUSE）	8	8	90.99％	***	0.58	0.596	77.76％	0.02％
グループ化 +剪定 +量子化	1.5	1	86.13％	***	0.32	0.19	92.91％	4.88％

-train_batch_size 256、シングルカード

その後

Tensorrt Full Demo
その他の圧縮アルゴリズム（量子化/剪定/蒸留/NASなど）
その他の展開フレームワーク（MNN/TNN/TNGINEなど）
圧縮 - >展開

拡大する

micronet

ミクロネット

プロジェクトの紹介

圧縮

展開する

コード構造

プロジェクトの進捗

環境要件

インストール

テスト

圧縮

定量化

wbwtab

WQAQ

ドレファ

Iao

剪定

まばらなトレーニング

剪定

細かい調整

剪定 - >定量化（剪定速度と量子化率の平衡に注意）

剪定 - >定量化（高レベル）（剪定速度が大きすぎて量子化速度が小さすぎます）

W8A8（ドレファ）

W8A8（IAO）

その他のオプションの定量的構成アナロジー

剪定 - >量子化（低）（剪定速度は小さく、量子化率は大きい）

wbab

その他の価値テーキングアナロジー

BN融合および定量的推論シミュレーションテスト

wbwtab

bn_fuse（QUANT_MODEL_TRAINおよびQUANT_BN_FUSED_MODEL_INFENERINGの構造とパラメーターを取得）

bn_fused_model_test（Quant_model_trainおよびQuant_bn_fused_model_inferenceのテスト）

ドレファ

Quant_model_para（Quant_model_trainとQuant_model_inferenceの構造とパラメーターを取得）

Quant_model_test（tests Quant_model_trainおよびQuant_model_inference）

Iao

bn_fuse（Quant_bn_fused_model_trainとQuant_bn_fused_model_inferenceの構造とパラメーターを取得）

bn_fused_model_test（Quant_bn_fused_model_trainおよびQuant_bn_fused_model_inferenceのテスト）

機器の選択

展開する

Tensort

関連する解釈

移動します

定量的トレーニング

レネの例

Quant_test_manual.py

Quant_test_auto.py

テスト

Quant_test_manual

Quant_test_auto

定量的推論

モデル圧縮データの比較（参照のみ）

関連情報

圧縮

定量化

qat

バイナリ値

3つの値

ハイビット

PTQ

ハイビット

剪定

特別なチップに適合したモデル圧縮

展開する

Tensort

その後