micronet 다운로드 micronet 소스 코드 다운로드

마이크로넷

"현재 딥 러닝 분야에는 두 개의 학교가 있습니다. 하나는 더 높은 성능을 추구하기 위해 강력하고 복잡한 모델 네트워크와 실험 방법을 연구하는 학술 학교입니다. 다른 하나는 엔지니어링 스쿨입니다. 다른 하나는 하드웨어 플랫폼에서 알고리즘을보다 안정적이고 효율적으로 구현하는 것을 목표로합니다. 효율성은 더 나은 성능, 높은 스토리지 공간 및 계산에 적용하는 데 중요한 이유가 있어야합니다. 딥 신경 네트워크의 규모가 커지면 모바일 터미널에 딥 러닝을 배치하는 데 큰 어려움이 생겼으며, 딥 러닝 모델 압축 및 배포는 학계와 산업 모두가 집중 한 연구 분야 중 하나가되었습니다. "

프로젝트 소개

Microt, 모델 압축 및 Lib를 배포합니다.

압축

정량화 : 고 비트 (> 2B) : QAT, PTQ, QAFT; 낮은 비트 (≤2b)/3 배 및 이진 : QAT
가지 치기 : 정상, 규칙 및 그룹화 된 컨볼 루션 구조 가지 치기
특징에 대한 이진 양자화에 대한 BN 융합 (A) (바인딩 BN 파라미터 -> CONV)
BN 융합 (고 비트에 의해 양자화 된 BN 융합 (훈련 양자화, 첫 번째 융합 및 양자화, 융합 : BN 파라미터-> CONV WEAGHT W 및 BIAS B)

배포

Tensorrt (fp32/fp16/int8 (ptq-calibration), op-adapt (upsample), dynamic_shape 등)

코드 구조

code_structure

 micronet
├── __init__.py
├── base_module
│   ├── __init__.py
│   └── op.py
├── compression
│   ├── README.md
│   ├── __init__.py
│   ├── pruning
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── gc_prune.py
│   │   ├── main.py
│   │   ├── models_save
│   │   │   └── models_save.txt
│   │   └── normal_regular_prune.py
│   └── quantization
│       ├── README.md
│       ├── __init__.py
│       ├── wbwtab
│       │   ├── __init__.py
│       │   ├── bn_fuse
│       │   │   ├── bn_fuse.py
│       │   │   ├── bn_fused_model_test.py
│       │   │   └── models_save
│       │   │       └── models_save.txt
│       │   ├── main.py
│       │   ├── models_save
│       │   │   └── models_save.txt
│       │   └── quantize.py
│       └── wqaq
│           ├── __init__.py
│           ├── dorefa
│           │   ├── __init__.py
│           │   ├── main.py
│           │   ├── models_save
│           │   │   └── models_save.txt
│           │   ├── quant_model_test
│           │   │   ├── models_save
│           │   │   │   └── models_save.txt
│           │   │   ├── quant_model_para.py
│           │   │   └── quant_model_test.py
│           │   └── quantize.py
│           └── iao
│               ├── __init__.py
│               ├── bn_fuse
│               │   ├── bn_fuse.py
│               │   ├── bn_fused_model_test.py
│               │   └── models_save
│               │       └── models_save.txt
│               ├── main.py
│               ├── models_save
│               │   └── models_save.txt
│               └── quantize.py
├── data
│   └── data.txt
├── deploy
│   ├── README.md
│   ├── __init__.py
│   └── tensorrt
│       ├── README.md
│       ├── __init__.py
│       ├── calibrator.py
│       ├── eval_trt.py
│       ├── models
│       │   ├── __init__.py
│       │   └── models_trt.py
│       ├── models_save
│       │   └── calibration_seg.cache
│       ├── test_trt.py
│       └── util_trt.py
├── models
│   ├── __init__.py
│   ├── nin.py
│   ├── nin_gc.py
│   └── resnet.py
└── readme_imgs
    ├── code_structure.jpg
    └── micronet.xmind

프로젝트 진행

2019.12.4 , 먼저 제출
12.8 , Dorefa Features (a)는 양자화 전에 먼저 (* 0.1) 스케일링 된 다음 잘린 다음 절단 오류를 줄입니다.
12.11 , 프로젝트 코드 구조 다이어그램을 추가하십시오
12.12, 사용 예를 개선하십시오
12.14, 추가 : 1. BN 융합의 양자화 상황 (W 3 값/이진 값)은 선택 사항, 즉 훈련 양자화, W 3 값/이진 값이 선택 될 때, 해당 선택은 다음과 같습니다. 2. BN 퓨전 동안 바이어스없이 컨볼 루션 커널 (CONC)의 처리
12.17 , 모델 압축 전후에 데이터 비교 추가 (예)
12.20, 장치 옵션 추가 (CPU, GPU (단일 카드, 다중 카드))
12.27 , 보충 관련 논문
12.29, 8 비트 내에서 고 비트 양자화의 한계를 제거합니다. 즉, 이제 10 비트, 16 비트 등으로 정량화 할 수 있습니다.
2020.2.17 , 1. W 3 값/이진 양자화 코드를 단순화합니다. 2. W 3 값 양자화 훈련을 가속화합니다
2.18 , 특징의 이진 값에 대해 BN 융합을 최적화합니다 (a) : BN 층 감마 매개 변수의 한계를 제거합니다.
2.24 , 3/이진 양자화 코드 구성 구조를 다시 최적화하여 이식성을 향상시키기 위해 이전 버전은 실제로 이식하기가 쉽지 않습니다. 현재 포팅 방법 : 압축/양자화/wbwtab/models/util_wbwtab.py에서 QuantConv2d로 정량화하려는 설 보를 교체하십시오. 이 경로에서 Nin_gc.py의 사용법을 참조 할 수 있습니다.
3.1 , 추가 : 1. Google의 고 비트 양자화 방법; 2. 훈련 동안 고 비트 양자화의 Bn 융합
3.2 , 3.3, 양자화 코드의 전체 구조를 정규화하십시오. 현재, 모든 양자화 방법은 유사한 포팅 방법을 채택 할 수 있습니다. CONV (또는 현재 Dorefa에 의해 지원되는 CONC, 다른 방법은 쓰기 가능과 유사 함)가 모델/util_wxax.py의 QuantConv2d (또는 Quantlinear)로 대체 될 수 있습니다. 포팅을위한이 경로에서 Nin_GC.py의 사용 방법을 참조 할 수 있습니다 (분류, 감지, 세분화 등이 적용 가능하지만 실제 상황에 따라 디버깅해야합니다).
3.4 . WBWTAB/BN_FUSE에서 "피처 (A) 이진 값에 대한 BN 융합 (a) 이진 값"의 관련 구현 코드를 정기적으로 최적화하고 퓨전 전후에 BN 퓨전 및 모델 비교 테스트를 수행 할 수 있습니다 (정확도/속도/(크기)).
3.11, 압축/WQAQ/IAO (0.1 -> 0.01)에서 BN 층 운동량 매개 변수를 조정하고, 배치 통계적 파라미터의 비율을 약화시키고, 양자화로 인한 지터를 일정 범위로 억제합니다. 실험 후, 정량적 훈련이 더 안정적이고, ACC는 약 1%증가합니다.
3.13 , 코드 구조 다이어그램을 업데이트하십시오
4.6, 이진 양자화 훈련에서 W_CLIP의 문제를 수정했습니다 (이전, 이진 양자화 훈련 정확도는 개선되지 않았으며 이제 정상적으로 사용할 수 있음) (모델/UTIL_WXAX.PY와 같은 일부 모듈을 찾을 수없는 문제를 해결했습니다).
12.14 , 1. 코드 구조 향상; 2. Deploy-Tensorrt 추가 (메인 모듈이지만 아직 실행되지 않음)
12.18, 1. 코드 구조/모듈 참조/모듈 _name 개선; 2. 전송 사용 데모를 추가하십시오
12.21 , 가지 치기 정문 파이프 라인 및 코드 향상
2021.1.4 , 다른 Quant_op을 추가하십시오
1.5, Quant_weight의 채널 당 및 층당 선택을 추가하십시오
1.7 , IAO의 Loss-Nan 버그를 수정하십시오. 버그는 채널 당 최소/최대 오류 때문입니다
1.8, 1. Quant_para 저장을 개선하십시오. 이제 스케일과 Zero_point 만 저장하십시오. 2. 옵션 추가 weight_observer 추가
1.11 , binary_a (1/0) 및 binary_w 사전 처리에서 버그를 수정하십시오
1.12 , "PIP 설치"추가
1.22 , auto_insert_quant_op 추가 (여전히 개선되어야 함)
1.27 , auto_insert_quant_op 향상 (이제 Quant_test_auto로 양자화를 쉽게 사용할 수 있습니다).
1.28, 1. Prune-Quantization 파이프 라인 및 코드를 수정하십시오. 2. 코드 구조를 향상시킵니다
2.1 , WBWTAB_BN_FUSE 향상
2.4 , 1. WQAQ_BN_FUSE 추가; 2. Quant_Model_Inference_Simulation을 추가하십시오. 3. 코드 형식을 향상시킵니다
4.30, 1. Code_structure IMG 업데이트; 2. IAO의 Quant_weight_Range, Quant_Contrans 및 Quant_Bn_Fuse_Conv Pretrained_Model BN_PARA로드 버그 수정
5.4 , Qaft 추가, 양자화 정확도를 향상시키는 것이 유리합니다.
5.6 , PTQ를 추가하면 양자화 정확도도 좋습니다.
5.11, bn_fuse_calib 플래그를 추가하십시오
5.14 , 1. Ste를 Clip_ste 로 변경하면 Quant_train을 개선하는 것이 좋습니다. 2. Quant_relu를 제거하고 Quant_Leaky_Relu를 추가하십시오
5.15, Quant_Model_PARA POST-PROCESSING에서 버그를 수정하십시오
6.7 , Quant_add (base_module의 OP를 사용해야 함) 및 Quant_resnet 데모 추가
6.9 , IAO_QUANT 지원 다중 GPU
6.16, Quant_Round () 및 Quant_Binary () 수정
10.6, 형식

환경 요구 사항

파이썬> = 3.5
토치> = 1.1.0
Torchvison> = 0.3.0
Numpy
onnx == 1.6.0
Tensorrt == 7.0.0.11

설치하다

pypi

pip install micronet -i https://pypi.org/simple

github

git clone https://github.com/666DZY666/micronet.git
cd micronet
python setup.py install

확인하다

python -c " import micronet; print(micronet.__version__) "

시험

Github에서 설치하십시오

압축

부량

--refine, 사전에 사전에있는 플로팅 포인트 모델 매개 변수를로드하고 그것들을 기반으로 양자화 할 수 있습니다.

WBWTAB

-w --a, 무게 w 및 양자화 된 값이 특징입니다

 cd micronet/compression/quantization/wbwtab

WBAB

python main.py --W 2 --A 2

WBA32

python main.py --W 2 --A 32

wtab

python main.py --W 3 --A 2

WTA32

python main.py --W 3 --A 32

WQAQ

-w_bits --a_bits, weight w 및 양자화 된 비트 수 특징

도레파

 cd micronet/compression/quantization/wqaq/dorefa

W16A16

python main.py --w_bits 16 --a_bits 16

W8A8

python main.py --w_bits 8 --a_bits 8

W4A4

python main.py --w_bits 4 --a_bits 4

다른 비트 상황 비유

iao

 cd micronet/compression/quantization/wqaq/iao

Dorefa와 동일한 정량적 숫자 선택

단일 카드

qat/ptq -> qaft

! QAT/PTQ 이후에 QAFT를 수행해야합니다!

-Q_TYPE, 양자화 유형 (0- 대칭, 1- 대칭)

-Q_LEVEL, 가중치 레벨 (0 채널 레벨, 1 레벨)

-weight_observer, weight_observer selection (0-minmaxobserver, 1-movingaverageminmaxobserver)

----bn_fuse, 정량화의 bn 퓨전 플래그

-BN_FUSE_CALIB, 양자화의 BN 퓨전 교정 마크

-pretraind_model, 사전 상환 플로팅 포인트 모델

-QAFT, QAFT 플래그

--ptq, ptq_observer

--ptq_control, ptq_control

-ptq_batch, PTQ의 배치 수

-중심, PTQ 교정 비율

Qat

기본값 : 대칭, (무게) 채널 레벨 양자화, BN은 융합하지 않음, weight_observer-minmaxobserver, 사전 훈련 된 플로팅 포인트 모델이로드되지 않음, QAT

python main.py --q_type 0 --q_level 0 --weight_observer 0

대칭, (중량) 채널 레벨 양자화, Bn 융합, weight_observer-movingaverageminmaxobserver

python main.py --q_type 0 --q_level 0 --weight_observer 1

대칭, (중량) 수준 양자화, bn은 융합하지 않습니다

python main.py --q_type 0 --q_level 1

비대칭, (중량) 채널 수준 양자화, Bn은 융합하지 않습니다

python main.py --q_type 1 --q_level 0

비대칭, (중량) 수준 양자화, bn은 융합하지 않습니다

python main.py --q_type 1 --q_level 1

대칭, (중량) 채널 수준 양자화, Bn 퓨전

python main.py --q_type 0 --q_level 0 --bn_fuse

대칭, (중량) 수준 양자화, bn 융합

python main.py --q_type 0 --q_level 1 --bn_fuse

비대칭, (중량) 채널 수준 양자화, Bn 퓨전

python main.py --q_type 1 --q_level 0 --bn_fuse

비대칭, (중량) 수준 양자화, bn 융합

python main.py --q_type 1 --q_level 1 --bn_fuse

대칭, (중량) 채널 수준 양자화, BN 퓨전 교정

python main.py --q_type 0 --q_level 0 --bn_fuse --bn_fuse_calib

PTQ

사전 훈련 된 부동 소수점 모델은 잘라링해야하며, 이는 가지 치기에 대한 정상적인 훈련으로 얻을 수 있습니다.

대칭, (중량) 채널 수준 양자화, Bn 퓨전

python main.py --refine ../../../pruning/models_save/nin_gc.pth --q_level 0 --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

다른 상황 비유

Qaft

! QAT/PTQ 이후에 QAFT를 수행해야합니다!

qat -> Qaft

대칭, (중량) 채널 수준 양자화, Bn 퓨전

python main.py --resume models_save/nin_gc_bn_fused.pth --q_type 0 --q_level 0 --bn_fuse --qaft --lr 0.00001

다른 상황 비유

PTQ -> QAFT

대칭, (중량) 채널 수준 양자화, Bn 퓨전

python main.py --resume models_save/nin_gc_bn_fused.pth --q_level 0 --bn_fuse --qaft --lr 0.00001 --ptq

다른 상황 비유

전정

드문 훈련 -> 가지 치기 -> 미세 조정

 cd micronet/compression/pruning

드문 훈련

-SR 스파 스 사인

--S 스파 스 속도 (데이터 세트 및 모델 조건에 따라 조정해야합니다)

-Model_Type 모델 유형 (0-NIN, 1-NIN_GC)

NIN (정상 컨볼 루션 구조)

python main.py -sr --s 0.0001 --model_type 0

NIN_GC (그룹화 컨볼 루션 구조 포함)

python main.py -sr --s 0.001 --model_type 1

전정

-중앙 가지 치기 속도

-normal_regular 정상, 일반 가지 치기 플래그 및 일반 가지 치기베이스 (N으로 설정된 경우 가지 치기 후 모델의 레이어 당 필터 수는 N의 배수입니다)

-스파 스 훈련 후 모델 경로를 모델링하십시오

-가지 치기 후에 저장된 모델 경로 (경로는 기본적으로 제공되었으며 실제 상황에 따라 변경 될 수 있음)

정상 가지 치기 (NIN)

python normal_regular_prune.py --percent 0.5 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

일반 가지 치기 (NIN)

python normal_regular_prune.py --percent 0.5 --normal_regular 8 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

또는

python normal_regular_prune.py --percent 0.5 --normal_regular 16 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

그룹화 된 컨볼 루션 구조 가지 치기 (NIN_GC)

python gc_prune.py --percent 0.4 --model models_save/nin_gc_sparse.pth

미세 조정

--prune_refine 가지 치기 후 모델 경로 (미세 조정 기반)

python main.py --model_type 0 --prune_refine models_save/nin_prune.pth

Nin_GC

가지 치기 후 얻은 새 모델의 CFG를 통과해야합니다.

좋다

python main.py --model_type 1 --gc_prune_refine 154 162 144 304 320 320 608 584

가지 치기 -> 정량화 (가지 치기 속도 및 양자화 속도 평형에 주목하십시오)

가지 치기 플로팅 포인트 모델을로드 한 다음 정량화하십시오.

가지 치기 -> 정량화 (높은 수준) (가지 치기 속도가 너무 크고 양자화 속도가 너무 작습니다)

W8A8 (Dorefa)

 cd micronet/compression/quantization/wqaq/dorefa

NIN (정상 컨볼 루션 구조)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth

NIN_GC (그룹화 컨볼 루션 구조 포함)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth

W8A8 (IAO)

 cd micronet/compression/quantization/wqaq/iao

qat/ptq -> qaft

! QAT/PTQ 이후에 QAFT를 수행해야합니다!

Qat

BN은 융합하지 않습니다

NIN (정상 컨볼 루션 구조)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --lr 0.001

NIN_GC (그룹화 컨볼 루션 구조 포함)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --lr 0.001

BN 퓨전

NIN (정상 컨볼 루션 구조)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --lr 0.001

NIN_GC (그룹화 컨볼 루션 구조 포함)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --bn_fuse --pretrained_model --lr 0.001

PTQ

NIN (정상 컨볼 루션 구조)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

다른 상황 비유

Qaft

! QAT/PTQ 이후에 QAFT를 수행해야합니다!

qat -> Qaft

BN은 융합하지 않습니다

NIN (정상 컨볼 루션 구조)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001

NIN_GC (그룹화 컨볼 루션 구조 포함)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001

BN 퓨전

NIN (정상 컨볼 루션 구조)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001

NIN_GC (그룹화 컨볼 루션 구조 포함)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001

PTQ -> QAFT

BN은 융합하지 않습니다

NIN (정상 컨볼 루션 구조)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001 --ptq

NIN_GC (그룹화 컨볼 루션 구조 포함)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001 --ptq

BN 퓨전

NIN (정상 컨볼 루션 구조)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

NIN_GC (그룹화 컨볼 루션 구조 포함)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

다른 선택적 정량적 구성 유사성

가지 치기 -> 양자화 (낮음) (가지 치기 속도는 작고 양자화 속도가 크다)

 cd micronet/compression/quantization/wbwtab

WBAB

NIN (정상 컨볼 루션 구조)

python main.py --W 2 --A 2 --model_type 0 --prune_quant ../../pruning/models_save/nin_finetune.pth

NIN_GC (그룹화 컨볼 루션 구조 포함)

python main.py --W 2 --A 2 --model_type 1 --prune_quant ../../pruning/models_save/nin_gc_retrain.pth

기타 가치 테이블 비유

BN 융합 및 정량적 추론 시뮬레이션 테스트

WBWTAB

 cd micronet/compression/quantization/wbwtab/bn_fuse

bn_fuse (Quant_Model_Train 및 Quant_Bn_FUSED_MODEL_INFORENSE의 구조 및 매개 변수 얻기)

-Model_type, 1 -nin_gc (그룹화 된 컨볼 루션 구조 포함); 0- NIN (정상 컨볼 루션 구조)

-prune_quant, pruning_quantitative 모델 플래그

-w, 중량 양자화 값

모두 정량적 훈련과 일치해야하며 기본값을 직접 사용할 수 있습니다.

Nin_GC, Quant_Model, WB

python bn_fuse.py --model_type 1 --W 2

nin_gc, prune_quant_model, wb

python bn_fuse.py --model_type 1 --prune_quant --W 2

Nin_GC, Quant_Model, wt

python bn_fuse.py --model_type 1 --W 3

NIN, Quant_Model, WB

python bn_fuse.py --model_type 0 --W 2

bn_fused_model_test (Quant_Model_Train 및 Quant_Bn_FUSED_MODEL_INFORENSE의 테스트)

python bn_fused_model_test.py

도레파

 cd micronet/compression/quantization/wqaq/dorefa/quant_model_test

Quant_Model_Para (Quant_Model_Train 및 Quant_Model_Inference의 구조 및 매개 변수를 얻으십시오)

-Model_type, 1 -nin_gc (그룹화 된 컨볼 루션 구조 포함); 0- NIN (정상 컨볼 루션 구조)

-prune_quant, pruning_quantitative 모델 플래그

-w_bits, 무게 양자화 비트; --a_bits, 활성화 양자화 비트 수

모두 정량적 훈련과 일치해야하며 기본값을 직접 사용할 수 있습니다.

Nin_GC, Quant_Model, W8A8

python quant_model_para.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python quant_model_para.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

NIN, Quant_Model, W8A8

python quant_model_para.py --model_type 0 --w_bits 8 --a_bits 8

Quant_Model_test (tests Quant_Model_Train 및 Quant_Model_Inference)

python quant_model_test.py

iao

양자화 된 훈련 -bn_fuse는 true로 설정해야합니다.

 cd micronet/compression/quantization/wqaq/iao/bn_fuse

bn_fuse (Quant_bn_fused_Model_Train 및 Quant_Bn_Fused_Model_Inference의 구조 및 매개 변수 얻기)

-Model_type, 1 -nin_gc (그룹화 된 컨볼 루션 구조 포함); 0- NIN (정상 컨볼 루션 구조)

-prune_quant, pruning_quantitative 모델 플래그

-w_bits, 무게 양자화 비트; --a_bits, 활성화 양자화 비트 수

-q_type, 0- 대칭; 1- 비대칭

-Q_LEVEL, 0- 채널 레벨; 1- 레벨

모두 정량적 훈련과 일치해야하며 기본값을 직접 사용할 수 있습니다.

Nin_GC, Quant_Model, W8A8

python bn_fuse.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python bn_fuse.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

NIN, Quant_Model, W8A8

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8

Nin_GC, Quant_Model, W8A8, 비대칭, 계층

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8 --q_type 1 --q_level 1

bn_fused_model_test (Quant_Bn_FUSED_MODEL_TRAIN 및 Quant_Bn_FUSED_MODEL_INFERENCE에서 테스트)

python bn_fused_model_test.py

장비 선택

이제 CPU 및 GPU를 지원합니다 (단일 카드, 다중 카드)

-CPU CPU를 사용합니다. -GPU_ID 사용 및 GPU를 선택하십시오

python main.py --cpu

GPU 단일 카드

python main.py --gpu_id 0

또는

python main.py --gpu_id 1

GPU 멀티 카드

python main.py --gpu_id 0,1

또는

python main.py --gpu_id 0,1,2

기본적으로 서버 전체 카드를 사용하십시오

배포

Tensorrt

현재 관련 핵심 모듈 코드 만 제공되며 나중에 전체 실행 가능한 데모가 추가됩니다.

마이그레이션

정량적 훈련

Lenet 예제

Quant_test_manual.py

OP를 Quant_OP 로 교체하여 모델을 양자화 (고 비트 (> 2B), 저 비트 (≤2B)/3 배)로 만들 수 있습니다.

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

# ``quantize`` is quant_module, ``QuantConv2d``, ``QuantLinear``, ``QuantMaxPool2d``, ``QuantReLU`` are quant_op
from micronet . compression . quantization . wbwtab . quantize import (
    QuantConv2d as quant_conv_wbwtab ,
)
from micronet . compression . quantization . wbwtab . quantize import (
    ActivationQuantizer as quant_relu_wbwtab ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantConv2d as quant_conv_dorefa ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantLinear as quant_linear_dorefa ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantConv2d as quant_conv_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantLinear as quant_linear_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantMaxPool2d as quant_max_pool_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantReLU as quant_relu_iao ,
)


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetWbWtAb ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetWbWtAb , self ). __init__ ()
        self . conv1 = quant_conv_wbwtab ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_wbwtab ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = quant_relu_wbwtab ()

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetDoReFa ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetDoReFa , self ). __init__ ()
        self . conv1 = quant_conv_dorefa ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_dorefa ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_dorefa ( 320 , 50 )
        self . fc2 = quant_linear_dorefa ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetIAO ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetIAO , self ). __init__ ()
        self . conv1 = quant_conv_iao ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_iao ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_iao ( 320 , 50 )
        self . fc2 = quant_linear_iao ( 50 , 10 )
        self . max_pool = quant_max_pool_iao ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


lenet = LeNet ()
quant_lenet_wbwtab = QuantLeNetWbWtAb ()
quant_lenet_dorefa = QuantLeNetDoReFa ()
quant_lenet_iao = QuantLeNetIAO ()

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_wbwtab*** n " , quant_lenet_wbwtab )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

Quant_test_auto.py

단순히 micronet.compression.quantization.quantize.prepare (model)를 사용하여 모델을 양자화 (고 비트 (> 2b), 저 비트 (≤2b)/3 배)로 양자화 할 수 있습니다.

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

import micronet . compression . quantization . wqaq . dorefa . quantize as quant_dorefa
import micronet . compression . quantization . wqaq . iao . quantize as quant_iao


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


"""
--w_bits --a_bits, 权重W和特征A量化位数
--q_type, 量化类型(0-对称, 1-非对称)
--q_level, 权重量化级别(0-通道级, 1-层级)
--weight_observer, weight_observer选择(0-MinMaxObserver, 1-MovingAverageMinMaxObserver)
--bn_fuse, 量化中bn融合标志
--bn_fuse_calib, 量化中bn融合校准标志
--pretrained_model, 预训练浮点模型
--qaft, qaft标志
--ptq, ptq标志
--percentile, ptq校准的比例
"""
lenet = LeNet ()
quant_lenet_dorefa = quant_dorefa . prepare ( lenet , inplace = False , a_bits = 8 , w_bits = 8 )
quant_lenet_iao = quant_iao . prepare (
    lenet ,
    inplace = False ,
    a_bits = 8 ,
    w_bits = 8 ,
    q_type = 0 ,
    q_level = 0 ,
    weight_observer = 0 ,
    bn_fuse = False ,
    bn_fuse_calib = False ,
    pretrained_model = False ,
    qaft = False ,
    ptq = False ,
    percentile = 0.9999 ,
)

# if ptq == False, do qat/qaft, need train
# if ptq == True, do ptq, don't need train
# you can refer to micronet/compression/quantization/wqaq/iao/main.py

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

시험

Quant_test_manual

python -c " import micronet; micronet.quant_test_manual() "

Quant_test_auto

python -c " import micronet; micronet.quant_test_auto() "

"Quant_Model이 준비되었다"는 출력을 출력하면 마이크로가 준비되었습니다.

정량적 추론

참조 BN 융합 및 정량적 추론 시뮬레이션 테스트

모델 압축 데이터 비교 (참조 만)

다음은 CIFAR10 예제로, 더 중복 모델과 더 큰 데이터 세트에서 다른 결합 된 압축 방법을 시도 할 수 있습니다.

유형	W (비트)	A (비트)	acc	gflops	파라 (m)	크기 (MB)	압축률	손실
오리지널 모델 (NIN)	FP32	FP32	91.01%	0.15	0.67	2.68	***	***
그룹화 컨볼 루션 구조 사용 (NIN_GC)	FP32	FP32	91.04%	0.15	0.58	2.32	13.43%	-0.03%
전정	FP32	FP32	90.26%	0.09	0.32	1.28	52.24%	0.75%
부량	1	FP32	90.93%	***	0.58	0.204	92.39%	0.08%
부량	1.5	FP32	91%	***	0.58	0.272	89.85%	0.01%
부량	1	1	86.23%	***	0.58	0.204	92.39%	4.78%
부량	1.5	1	86.48%	***	0.58	0.272	89.85%	4.53%
정량화 (dorefa)	8	8	91.03%	***	0.58	0.596	77.76%	-0.02%
정량화 (IAO, 전체 정량화, 대칭/채널/BN_FUSE)	8	8	90.99%	***	0.58	0.596	77.76%	0.02%
그룹화 + 가지 치기 + 양자화	1.5	1	86.13%	***	0.32	0.19	92.91%	4.88%

--train_batch_size 256, 단일 카드

후속

Tensorrt 전체 데모
기타 압축 알고리즘 (양자화/가지 치기/증류/NAS 등)
기타 배포 프레임 워크 (MNN/TNN/TNGINE 등)
압축 -> 배포

확장하다

micronet

마이크로넷

프로젝트 소개

압축

배포

코드 구조

프로젝트 진행

환경 요구 사항

설치하다

시험

압축

부량

WBWTAB

WQAQ

도레파

iao

전정

드문 훈련

전정

미세 조정

가지 치기 -> 정량화 (가지 치기 속도 및 양자화 속도 평형에 주목하십시오)

가지 치기 -> 정량화 (높은 수준) (가지 치기 속도가 너무 크고 양자화 속도가 너무 작습니다)

W8A8 (Dorefa)

W8A8 (IAO)

다른 선택적 정량적 구성 유사성

가지 치기 -> 양자화 (낮음) (가지 치기 속도는 작고 양자화 속도가 크다)

WBAB

기타 가치 테이블 비유

BN 융합 및 정량적 추론 시뮬레이션 테스트

WBWTAB

bn_fuse (Quant_Model_Train 및 Quant_Bn_FUSED_MODEL_INFORENSE의 구조 및 매개 변수 얻기)

bn_fused_model_test (Quant_Model_Train 및 Quant_Bn_FUSED_MODEL_INFORENSE의 테스트)

도레파

Quant_Model_Para (Quant_Model_Train 및 Quant_Model_Inference의 구조 및 매개 변수를 얻으십시오)

Quant_Model_test (tests Quant_Model_Train 및 Quant_Model_Inference)

iao

bn_fuse (Quant_bn_fused_Model_Train 및 Quant_Bn_Fused_Model_Inference의 구조 및 매개 변수 얻기)

bn_fused_model_test (Quant_Bn_FUSED_MODEL_TRAIN 및 Quant_Bn_FUSED_MODEL_INFERENCE에서 테스트)

장비 선택

배포

Tensorrt

관련 해석

마이그레이션

정량적 훈련

Lenet 예제

Quant_test_manual.py

Quant_test_auto.py

시험

Quant_test_manual

Quant_test_auto

정량적 추론

모델 압축 데이터 비교 (참조 만)

관련 정보

압축

부량

Qat

이진 값

세 가지 값

높은 비트

PTQ

높은 비트

전정

모델 압축은 특수 칩에 적합합니다

배포

Tensorrt

후속