ดาวน์โหลด micronet - ดาวน์โหลดซอร์สโค้ด micronet

ไมโครเน็ต

"ในปัจจุบันมีโรงเรียนสองแห่งในด้านการเรียนรู้อย่างลึกซึ้งแห่งหนึ่งคือโรงเรียนวิชาการซึ่งศึกษาเครือข่ายแบบจำลองที่มีประสิทธิภาพและซับซ้อนและวิธีการทดลองเพื่อให้ได้ประสิทธิภาพที่สูงขึ้น การเพิ่มขนาดของเครือข่ายประสาทลึกได้นำความท้าทายอย่างมากมาสู่การปรับใช้การเรียนรู้อย่างลึกซึ้งในสถานีเคลื่อนที่และการบีบอัดรูปแบบการเรียนรู้อย่างลึกซึ้งและการปรับใช้ได้กลายเป็นหนึ่งในพื้นที่การวิจัยที่ทั้งสถาบันการศึกษาและอุตสาหกรรมได้มุ่งเน้นไปที่ "

การแนะนำโครงการ

Microt การบีบอัดแบบจำลองและปรับใช้ LIB

การบีบอัด

ปริมาณ: สูง (> 2b): qat, ptq, qaft; ต่ำ (≤2b)/ternary และ binary: qat
การตัดแต่งกิ่ง: การตัดแต่งโครงสร้างแบบปกติปกติและจัดกลุ่ม
Bn Fusion สำหรับการหาปริมาณแบบไบนารีสำหรับคุณสมบัติ (a) (การผูกพารามิเตอร์ BN -> Conv)
BN ฟิวชั่นเชิงปริมาณโดยบิตสูง (ในการฝึกอบรมเชิงปริมาณฟิวชั่นแรกและจากนั้นปริมาณ, ฟิวชั่น: พารามิเตอร์ BN-> น้ำหนัก Conv W และ Bias B)

ปรับใช้

tensorrt (fp32/fp16/int8 (ptq-calibration), op-adapt (upsample), dynamic_shape ฯลฯ )

โครงสร้างรหัส

code_structure

 micronet
├── __init__.py
├── base_module
│   ├── __init__.py
│   └── op.py
├── compression
│   ├── README.md
│   ├── __init__.py
│   ├── pruning
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── gc_prune.py
│   │   ├── main.py
│   │   ├── models_save
│   │   │   └── models_save.txt
│   │   └── normal_regular_prune.py
│   └── quantization
│       ├── README.md
│       ├── __init__.py
│       ├── wbwtab
│       │   ├── __init__.py
│       │   ├── bn_fuse
│       │   │   ├── bn_fuse.py
│       │   │   ├── bn_fused_model_test.py
│       │   │   └── models_save
│       │   │       └── models_save.txt
│       │   ├── main.py
│       │   ├── models_save
│       │   │   └── models_save.txt
│       │   └── quantize.py
│       └── wqaq
│           ├── __init__.py
│           ├── dorefa
│           │   ├── __init__.py
│           │   ├── main.py
│           │   ├── models_save
│           │   │   └── models_save.txt
│           │   ├── quant_model_test
│           │   │   ├── models_save
│           │   │   │   └── models_save.txt
│           │   │   ├── quant_model_para.py
│           │   │   └── quant_model_test.py
│           │   └── quantize.py
│           └── iao
│               ├── __init__.py
│               ├── bn_fuse
│               │   ├── bn_fuse.py
│               │   ├── bn_fused_model_test.py
│               │   └── models_save
│               │       └── models_save.txt
│               ├── main.py
│               ├── models_save
│               │   └── models_save.txt
│               └── quantize.py
├── data
│   └── data.txt
├── deploy
│   ├── README.md
│   ├── __init__.py
│   └── tensorrt
│       ├── README.md
│       ├── __init__.py
│       ├── calibrator.py
│       ├── eval_trt.py
│       ├── models
│       │   ├── __init__.py
│       │   └── models_trt.py
│       ├── models_save
│       │   └── calibration_seg.cache
│       ├── test_trt.py
│       └── util_trt.py
├── models
│   ├── __init__.py
│   ├── nin.py
│   ├── nin_gc.py
│   └── resnet.py
└── readme_imgs
    ├── code_structure.jpg
    └── micronet.xmind

ความคืบหน้าของโครงการ

2019.12.4 ส่งครั้งแรก
12.8 , คุณสมบัติ Dorefa (a) ถูกปรับขนาดก่อน (* 0.1) ก่อนการวัดปริมาณจากนั้นตัดทอนเพื่อลดข้อผิดพลาดการตัดทอน
12.11 , เพิ่มแผนภาพโครงสร้างรหัสโครงการ
12.12 ปรับปรุงตัวอย่างการใช้งาน
12.14, เพิ่ม: 1. สถานการณ์เชิงปริมาณของ BN Fusion (ค่าสามค่า/ไบนารี) เป็นทางเลือกนั่นคือเมื่อการฝึกอบรมเชิงปริมาณ W ค่าสามค่า/ไบนารีถูกเลือกและนี่คือการเลือกที่สอดคล้องกัน; 2. การประมวลผลเคอร์เนล convolution (Conv) โดยไม่มีอคติในระหว่าง BN Fusion
12.17 เพิ่มการเปรียบเทียบข้อมูลก่อนและหลังการบีบอัดแบบจำลอง (ตัวอย่าง)
12.20, เพิ่มตัวเลือกอุปกรณ์ (CPU, GPU (การ์ดใบเดียว, การ์ดหลายใบ))
12.27 เอกสารที่เกี่ยวข้องเสริม
12.29, การลบขีด จำกัด ของการหาปริมาณบิตสูงภายใน 8 บิตนั่นคือตอนนี้สามารถหาปริมาณได้ถึง 10 บิต 16 บิต ฯลฯ
2020.2.17 , 1. ลดความซับซ้อนของรหัสปริมาณสามค่า/ไบนารี 2. เร่งการฝึกอบรมเชิงปริมาณสามค่า W
2.18 , เพิ่มประสิทธิภาพ BN Fusion สำหรับค่าไบนารีของคุณลักษณะ (a): ลบข้อ จำกัด ของพารามิเตอร์แกมม่าเลเยอร์ BN นั่นคือ BN สามารถฝึกได้ตามปกติในช่วงฟิวชั่นในกรณีนี้
2.24 เพิ่มประสิทธิภาพโครงสร้างองค์กรรหัสปริมาณสาม/ไบนารีอีกครั้งเพื่อเพิ่มความสามารถในการพกพาเวอร์ชันเก่านั้นไม่ใช่เรื่องง่ายที่จะปลูกถ่าย วิธีการพอร์ตปัจจุบัน: แทนที่ความเชื่อมั่นที่คุณต้องการหาปริมาณด้วย QuantConv2D ในการบีบอัด/การวัดปริมาณ/wbwtab/models/util_wbwtab.py คุณสามารถอ้างถึงวิธีการใช้งานใน nin_gc.py ภายใต้เส้นทางนี้
3.1 , เพิ่ม: 1. วิธีการหาปริมาณบิตสูงของ Google 2. BN ฟิวชั่นของปริมาณบิตบิตสูงในระหว่างการฝึกอบรม
3.2 , 3.3 ทำให้โครงสร้างโดยรวมของรหัสปริมาณ ในปัจจุบันวิธีการเชิงปริมาณทั้งหมดสามารถใช้วิธีการพอร์ตที่คล้ายกัน: ความเชื่อมั่น (หรือ FC ซึ่งสนับสนุนโดย Dorefa ในปัจจุบันวิธีอื่น ๆ คล้ายกับการเขียน) สามารถแทนที่ได้ด้วย QuantConv2d (หรือ QuantLinear) ในแบบจำลอง/util_wxax.py คุณสามารถอ้างถึงวิธีการใช้งานใน nin_gc.py ภายใต้เส้นทางนี้สำหรับการพอร์ต (การจำแนกการตรวจจับการแบ่งส่วน ฯลฯ มีผลบังคับใช้ แต่พวกเขาจำเป็นต้องมีการดีบักตามสถานการณ์จริง)
3.4 . เพิ่มประสิทธิภาพรหัสการใช้งานที่เกี่ยวข้องอย่างสม่ำเสมอของ "BN Fusion for Feature (a) ค่าไบนารี" ใน WBWTAB/BN_FUSE และสามารถทำการทดสอบ BN Fusion และการทดสอบแบบจำลองก่อนและหลัง Fusion (ความแม่นยำ/ความเร็ว/(ขนาด))
3.11, ปรับพารามิเตอร์โมเมนตัมเลเยอร์ BN ในการบีบอัด/WQAQ/IAO (0.1 -> 0.01) ลดสัดส่วนของพารามิเตอร์ทางสถิติแบทช์และยับยั้งการกระวนกระวายใจที่เกิดจากปริมาณในระดับหนึ่ง หลังจากการทดลองการฝึกอบรมเชิงปริมาณมีความเสถียรมากขึ้น ACC จะเพิ่มขึ้นประมาณ 1%
3.13 อัปเดตไดอะแกรมโครงสร้างรหัส
4.6, แก้ไขปัญหาของ W_Clip ในการฝึกอบรมเชิงปริมาณแบบไบนารี (ก่อนหน้านี้ความแม่นยำในการฝึกอบรมเชิงปริมาณแบบไบนารีไม่ได้รับการปรับปรุงและตอนนี้สามารถใช้งานได้ตามปกติ) (แก้ไขปัญหาที่ไม่สามารถหาโมดูลบางอย่างเช่นโมเดล/util_wxax.py)
12.14 , 1. ปรับปรุงโครงสร้างรหัส; 2. เพิ่ม Deploy-Tensorrt (โมดูลหลัก แต่ยังไม่ทำงาน)
12.18, 1. ปรับปรุงโครงสร้างรหัส/โมดูลอ้างอิง/โมดูล _name; 2. เพิ่มการสาธิตการถ่ายโอนการใช้งาน
12.21 , ปรับปรุงท่อและรหัสการตัดแต่งกิ่งและรหัส
2021.1.4 เพิ่ม quant_op อื่น ๆ
1.5, เพิ่มการเลือกแบบต่อช่องทางของ Quant_weight และต่อชั้น
1.7 , แก้ไขข้อผิดพลาดการสูญเสียของ IAO ข้อผิดพลาดเกิดจากข้อผิดพลาดต่อช่องทางต่ำสุด/สูงสุด
1.8, 1. ปรับปรุง Quant_Para Save ตอนนี้เพียงบันทึกสเกลและ zero_point; 2. เพิ่ม weight_observer เสริม (minmaxobserver หรือ movingaverageminmaxobserver)
1.11 , แก้ไขข้อผิดพลาดใน binary_a (1/0) และ binary_w preprocessing
1.12 , เพิ่ม "การติดตั้ง PIP"
1.22 , เพิ่ม auto_insert_quant_op (ยังคงต้องปรับปรุง)
1.27 , ปรับปรุง auto_insert_quant_op (ตอนนี้คุณสามารถใช้ quantization ได้อย่างง่ายดายเป็น Quant_Test_Auto)
1.28, 1. แก้ไขท่อส่งข้อมูลและรหัส 2. ปรับปรุงโครงสร้างรหัส
2.1 , ปรับปรุง wbwtab_bn_fuse
2.4 , 1. เพิ่ม wqaq_bn_fuse; 2. เพิ่ม Quant_model_inference_simulation; 3. ปรับปรุงรูปแบบรหัส
4.30, 1. อัปเดต code_structure img; 2. แก้ไข Quant_Weight_Range ของ IAO, QUANT_CONTRANS และ QUANT_BN_FUSE_CONV PRESTRAINT_MODEL BN_PARA LOAD BUG
5.4 , เพิ่ม qaft , เป็นประโยชน์ในการปรับปรุงความแม่นยำของปริมาณ
5.6 , เพิ่ม PTQ ความแม่นยำเชิงปริมาณก็ดีเช่นกัน
5.11, เพิ่ม BN_FUSE_CALIB FLAG
5.14 , 1. เปลี่ยน Ste เป็น CLIP_STE มันมีประโยชน์ในการปรับปรุง Quant_Train; 2. ลบ Quant_Relu และเพิ่ม quant_leaky_relu
5.15, แก้ไขข้อผิดพลาดใน Quant_Model_Para หลังการประมวลผล
6.7 , เพิ่ม quant_add (ต้องการใช้ op ของ base_module) และ demo quant_resnet
6.9 , IAO_Quant สนับสนุน Multi GPUs
6.16, แก้ไข Quant_Round () และ quant_binary ()
10.6 รูปแบบ

ข้อกำหนดด้านสิ่งแวดล้อม

Python> = 3.5
Torch> = 1.1.0
Torchvison> = 0.3.0
นม
onnx == 1.6.0
tensorrt == 7.0.0.11

ติดตั้ง

Pypi

pip install micronet -i https://pypi.org/simple

คนอื่น ๆ

git clone https://github.com/666DZY666/micronet.git
cd micronet
python setup.py install

ตรวจสอบ

python -c " import micronet; print(micronet.__version__) "

ทดสอบ

ติดตั้งจาก GitHub

การบีบอัด

การหาปริมาณ

-รีฟินสามารถโหลดพารามิเตอร์แบบจำลองจุดลอยตัวล่วงหน้าและหาปริมาณตามพวกเขาตามพวกเขา

wbwtab

-W-A, Weight W และมีค่าเชิงปริมาณ

 cd micronet/compression/quantization/wbwtab

WBAB

python main.py --W 2 --A 2

WBA32

python main.py --W 2 --A 32

wtab

python main.py --W 3 --A 2

WTA32

python main.py --W 3 --A 32

WQAQ

-w_bits-a_bits น้ำหนัก w และมีจำนวนบิตเชิงปริมาณ

Dorefa

 cd micronet/compression/quantization/wqaq/dorefa

W16A16

python main.py --w_bits 16 --a_bits 16

W8A8

python main.py --w_bits 8 --a_bits 8

W4A4

python main.py --w_bits 4 --a_bits 4

การเปรียบเทียบสถานการณ์อื่น ๆ บิต

IAO

 cd micronet/compression/quantization/wqaq/iao

การเลือกตัวเลขหลักเช่นเดียวกับ Dorefa

การ์ดใบเดียว

qat/ptq -> qaft

- โปรดทราบว่าคุณต้องทำ QAFT หลังจาก QAT/PTQ!

-q_type, ประเภทปริมาณ (0-symmetric, 1-symmetric)

-q_level, ระดับน้ำหนัก (ระดับ 0 ช่อง, 1 ระดับ)

-Weight_observer, Weight_observer Selection (0-Minmaxobserver, 1-movingaverageminmaxobserver)

-BN_FUSE, BN Fusion Flag ในปริมาณ

-BN_FUSE_CALIB, BN Fusion Calibration Mark ใน Quantization

-pretrained_model, โมเดลจุดลอยตัวล่วงหน้า

-Qaft, Qaft Flag

-ptq, ptq_observer

-ptq_control, ptq_control

-ptq_batch จำนวนแบทช์ของ PTQ

-อัตราส่วนการสอบเทียบ PTQ

ไส้

ค่าเริ่มต้น: symmetric, (น้ำหนัก) ปริมาณระดับช่องทาง, BN ไม่ได้ฟิวชั่น, weight_observer-minmaxobserver, โมเดลลอยแบบลอยตัวก่อนที่ได้รับการฝึกฝน

python main.py --q_type 0 --q_level 0 --weight_observer 0

Symmetric, (น้ำหนัก) ปริมาณแชนเนลระดับ, BN ไม่ใช่ฟิวชั่น, weight_observer-movingaverageminmaxobserver

python main.py --q_type 0 --q_level 0 --weight_observer 1

Symmetric, quantization ระดับ (น้ำหนัก), BN ไม่ได้ฟิวชั่น

python main.py --q_type 0 --q_level 1

asymmetric, (น้ำหนัก) ปริมาณระดับช่องทาง, BN ไม่ได้ฟิวชั่น

python main.py --q_type 1 --q_level 0

asymmetric, quantization ระดับ (น้ำหนัก), BN ไม่ได้ฟิวชั่น

python main.py --q_type 1 --q_level 1

Symmetric, (น้ำหนัก) Quantization ระดับช่อง, BN Fusion

python main.py --q_type 0 --q_level 0 --bn_fuse

Symmetric, (น้ำหนัก) Quantization, BN Fusion

python main.py --q_type 0 --q_level 1 --bn_fuse

asymmetric, (น้ำหนัก) ปริมาณระดับช่องทาง, BN Fusion

python main.py --q_type 1 --q_level 0 --bn_fuse

Asymmetric, quantization ระดับ (น้ำหนัก), BN Fusion

python main.py --q_type 1 --q_level 1 --bn_fuse

Symmetric, (น้ำหนัก) ปริมาณระดับช่องทาง, การสอบเทียบฟิวชั่น BN

python main.py --q_type 0 --q_level 0 --bn_fuse --bn_fuse_calib

PTQ

ต้องโหลดโมเดลจุดลอยตัวที่ผ่านการฝึกอบรมมาแล้วซึ่งสามารถรับได้โดยการฝึกอบรมปกติในการตัดแต่งกิ่ง

Symmetric, (น้ำหนัก) Quantization ระดับช่อง, BN Fusion

python main.py --refine ../../../pruning/models_save/nin_gc.pth --q_level 0 --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

การเปรียบเทียบสถานการณ์อื่น ๆ

qaft

- โปรดทราบว่าคุณต้องทำ QAFT หลังจาก QAT/PTQ!

qat -> qaft

Symmetric, (น้ำหนัก) Quantization ระดับช่อง, BN Fusion

python main.py --resume models_save/nin_gc_bn_fused.pth --q_type 0 --q_level 0 --bn_fuse --qaft --lr 0.00001

การเปรียบเทียบสถานการณ์อื่น ๆ

ptq -> qaft

Symmetric, (น้ำหนัก) Quantization ระดับช่อง, BN Fusion

python main.py --resume models_save/nin_gc_bn_fused.pth --q_level 0 --bn_fuse --qaft --lr 0.00001 --ptq

การเปรียบเทียบสถานการณ์อื่น ๆ

การตัดแต่ง

การฝึกอบรมแบบกระจัดกระจาย -> การตัดแต่ง -> การปรับที่ดี

 cd micronet/compression/pruning

การฝึกอบรมแบบเบาบาง

-SR SPARSE SIGN

-อัตราเบาบาง (ต้องปรับตามชุดข้อมูลและเงื่อนไขของโมเดล)

-ประเภทรุ่น Model_type (0-NIN, 1-NIN_GC)

NIN (โครงสร้าง convolutional ปกติ)

python main.py -sr --s 0.0001 --model_type 0

nin_gc (รวมถึงการจัดกลุ่มโครงสร้าง convolutional)

python main.py -sr --s 0.001 --model_type 1

การตัดแต่ง

-อัตราการตัดแต่งกิ่ง

-normal_regular ปกติธงการตัดแต่งกิ่งปกติและฐานการตัดแต่งกิ่งปกติ (ถ้าตั้งค่าเป็น n จำนวนตัวกรองต่อเลเยอร์ของแบบจำลองหลังจากการตัดแต่งกิ่งมีหลาย N)

-โมเดลเส้นทางโมเดลหลังจากการฝึกอบรมแบบเบาบาง

-บันทึกเส้นทางโมเดลที่บันทึกไว้หลังจากการตัดแต่ง (เส้นทางได้รับโดยค่าเริ่มต้นและสามารถเปลี่ยนแปลงได้ตามสถานการณ์จริง)

การตัดแต่งกิ่งปกติ (NIN)

python normal_regular_prune.py --percent 0.5 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

การตัดแต่งกิ่งปกติ (NIN)

python normal_regular_prune.py --percent 0.5 --normal_regular 8 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

หรือ

python normal_regular_prune.py --percent 0.5 --normal_regular 16 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

การตัดแต่งโครงสร้าง convolutional แบบจัดกลุ่ม (NIN_GC)

python gc_prune.py --percent 0.4 --model models_save/nin_gc_sparse.pth

การปรับที่ดี

-PRUNE_REFINE เส้นทางโมเดลหลังจากการตัดแต่ง (ปรับแต่งตามมัน)

python main.py --model_type 0 --prune_refine models_save/nin_prune.pth

nin_gc

คุณต้องผ่าน CFG ของรุ่นใหม่ที่ได้รับหลังจาก การตัดแต่ง

ชอบ

python main.py --model_type 1 --gc_prune_refine 154 162 144 304 320 320 608 584

การตัดแต่ง -> การหาปริมาณ (หมายเหตุอัตราการตัดแต่งกิ่งและสมดุลของอัตราการหาปริมาณ)

โหลดโมเดลจุดลอยตัวแบบตัดแต่ง

การตัดแต่ง -> ปริมาณ (ระดับสูง) (อัตราการตัดแต่งมีขนาดใหญ่เกินไปและอัตราการหาปริมาณมีขนาดเล็กเกินไป)

W8A8 (Dorefa)

 cd micronet/compression/quantization/wqaq/dorefa

NIN (โครงสร้าง convolutional ปกติ)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth

nin_gc (รวมถึงการจัดกลุ่มโครงสร้าง convolutional)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth

W8A8 (IAO)

 cd micronet/compression/quantization/wqaq/iao

qat/ptq -> qaft

- โปรดทราบว่าคุณต้องทำ QAFT หลังจาก QAT/PTQ!

ไส้

BN ไม่ได้ฟิวชั่น

NIN (โครงสร้าง convolutional ปกติ)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --lr 0.001

nin_gc (รวมถึงการจัดกลุ่มโครงสร้าง convolutional)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --lr 0.001

BN Fusion

NIN (โครงสร้าง convolutional ปกติ)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --lr 0.001

nin_gc (รวมถึงการจัดกลุ่มโครงสร้าง convolutional)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --bn_fuse --pretrained_model --lr 0.001

PTQ

NIN (โครงสร้าง convolutional ปกติ)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

การเปรียบเทียบสถานการณ์อื่น ๆ

qaft

- โปรดทราบว่าคุณต้องทำ QAFT หลังจาก QAT/PTQ!

qat -> qaft

BN ไม่ได้ฟิวชั่น

NIN (โครงสร้าง convolutional ปกติ)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001

nin_gc (รวมถึงการจัดกลุ่มโครงสร้าง convolutional)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001

BN Fusion

NIN (โครงสร้าง convolutional ปกติ)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001

nin_gc (รวมถึงการจัดกลุ่มโครงสร้าง convolutional)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001

ptq -> qaft

BN ไม่ได้ฟิวชั่น

NIN (โครงสร้าง convolutional ปกติ)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001 --ptq

nin_gc (รวมถึงการจัดกลุ่มโครงสร้าง convolutional)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001 --ptq

BN Fusion

NIN (โครงสร้าง convolutional ปกติ)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

nin_gc (รวมถึงการจัดกลุ่มโครงสร้าง convolutional)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

การเปรียบเทียบการกำหนดค่าเชิงปริมาณอื่น ๆ เป็นทางเลือก

การตัดแต่ง -> quantization (ต่ำ) (อัตราการตัดแต่งมีขนาดเล็กอัตราการหาปริมาณมีขนาดใหญ่)

 cd micronet/compression/quantization/wbwtab

WBAB

NIN (โครงสร้าง convolutional ปกติ)

python main.py --W 2 --A 2 --model_type 0 --prune_quant ../../pruning/models_save/nin_finetune.pth

nin_gc (รวมถึงการจัดกลุ่มโครงสร้าง convolutional)

python main.py --W 2 --A 2 --model_type 1 --prune_quant ../../pruning/models_save/nin_gc_retrain.pth

การเปรียบเทียบค่าอื่น ๆ

BN Fusion และการทดสอบการอนุมานเชิงปริมาณ

wbwtab

 cd micronet/compression/quantization/wbwtab/bn_fuse

BN_FUSE (รับโครงสร้างและพารามิเตอร์ของ Quant_Model_Train และ Quant_BN_FUSED_MODEL_INFERE

-MODEL_TYPE, 1 -NIN_GC (รวมถึงโครงสร้าง convolutional ที่จัดกลุ่ม); 0 - NIN (โครงสร้าง convolutional ปกติ)

-PRUNE_QUANT, FLAG MODEL PRONING_QUANTITATIT

-W, ค่าปริมาณการวัดน้ำหนัก

ทั้งหมดจำเป็นต้องสอดคล้องกับการฝึกอบรมเชิงปริมาณและคุณสามารถใช้ค่าเริ่มต้นโดยตรง

nin_gc, quant_model, wb

python bn_fuse.py --model_type 1 --W 2

nin_gc, prune_quant_model, wb

python bn_fuse.py --model_type 1 --prune_quant --W 2

nin_gc, quant_model, wt

python bn_fuse.py --model_type 1 --W 3

NIN, QUANT_MODEL, WB

python bn_fuse.py --model_type 0 --W 2

bn_fused_model_test (การทดสอบบน quant_model_train และ quant_bn_fused_model_inference)

python bn_fused_model_test.py

Dorefa

 cd micronet/compression/quantization/wqaq/dorefa/quant_model_test

Quant_Model_Para (รับโครงสร้างและพารามิเตอร์ของ Quant_Model_Train และ Quant_Model_Inference)

-MODEL_TYPE, 1 -NIN_GC (รวมถึงโครงสร้าง convolutional ที่จัดกลุ่ม); 0 - NIN (โครงสร้าง convolutional ปกติ)

-PRUNE_QUANT, FLAG MODEL PRONING_QUANTITATIT

--w_bits, จำนวนปริมาณบิต; -a_bits, จำนวนการเปิดใช้งานจำนวนบิต

nin_gc, quant_model, w8a8

python quant_model_para.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python quant_model_para.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

NIN, QUANT_MODEL, W8A8

python quant_model_para.py --model_type 0 --w_bits 8 --a_bits 8

Quant_Model_Test (ทดสอบ QUANT_MODEL_TRAIN และ QUANT_MODEL_INFERENCE)

python quant_model_test.py

IAO

โปรดทราบว่าเมื่อต้องมีการตั้งค่าการฝึกอบรมเชิงปริมาณ -BN_FUSE

 cd micronet/compression/quantization/wqaq/iao/bn_fuse

bn_fuse (รับโครงสร้างและพารามิเตอร์ของ Quant_Bn_Fused_Model_Train และ Quant_Bn_Fused_Model_Inference)

-MODEL_TYPE, 1 -NIN_GC (รวมถึงโครงสร้าง convolutional ที่จัดกลุ่ม); 0 - NIN (โครงสร้าง convolutional ปกติ)

-PRUNE_QUANT, FLAG MODEL PRONING_QUANTITATIT

--w_bits, จำนวนปริมาณบิต; -a_bits, จำนวนการเปิดใช้งานจำนวนบิต

-q_type, 0 -symmetric; 1 - ไม่สมมาตร

-q_level, 0 -ระดับช่อง; 1 - ระดับ

nin_gc, quant_model, w8a8

python bn_fuse.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python bn_fuse.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

NIN, QUANT_MODEL, W8A8

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8

nin_gc, quant_model, w8a8, asymmetry, ลำดับชั้น

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8 --q_type 1 --q_level 1

bn_fused_model_test (การทดสอบบน quant_bn_fused_model_train และ quant_bn_fused_model_inference)

python bn_fused_model_test.py

การเลือกอุปกรณ์

ตอนนี้รองรับ CPU และ GPU (การ์ดใบเดียวการ์ดหลายใบ)

-CPU ใช้ CPU,-GPU_ID ใช้และเลือก GPU

ซีพียู

python main.py --cpu

การ์ดใบเดียว GPU

python main.py --gpu_id 0

หรือ

python main.py --gpu_id 1

GPU Multicard

python main.py --gpu_id 0,1

หรือ

python main.py --gpu_id 0,1,2

โดยค่าเริ่มต้นให้ใช้การ์ดเต็มเซิร์ฟเวอร์

ปรับใช้

Tensorrt

ขณะนี้มีเฉพาะรหัส โมดูลหลัก ที่เกี่ยวข้องเท่านั้นและจะมีการเพิ่มการสาธิตที่สมบูรณ์แบบในภายหลัง

การตีความที่เกี่ยวข้อง

Tensorrt-Basics
tensorrt-op/dynamic_shape

โยกย้าย

การฝึกอบรมเชิงปริมาณ

ตัวอย่าง Lenet

quant_test_manual.py

แบบจำลองสามารถวัดปริมาณได้ (สูงบิต (> 2B), ต่ำบิต (≤2b)/เทิร์นรีและไบนารี) โดยเพียงแค่แทนที่ OP ด้วย Quant_OP

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

# ``quantize`` is quant_module, ``QuantConv2d``, ``QuantLinear``, ``QuantMaxPool2d``, ``QuantReLU`` are quant_op
from micronet . compression . quantization . wbwtab . quantize import (
    QuantConv2d as quant_conv_wbwtab ,
)
from micronet . compression . quantization . wbwtab . quantize import (
    ActivationQuantizer as quant_relu_wbwtab ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantConv2d as quant_conv_dorefa ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantLinear as quant_linear_dorefa ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantConv2d as quant_conv_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantLinear as quant_linear_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantMaxPool2d as quant_max_pool_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantReLU as quant_relu_iao ,
)


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetWbWtAb ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetWbWtAb , self ). __init__ ()
        self . conv1 = quant_conv_wbwtab ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_wbwtab ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = quant_relu_wbwtab ()

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetDoReFa ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetDoReFa , self ). __init__ ()
        self . conv1 = quant_conv_dorefa ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_dorefa ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_dorefa ( 320 , 50 )
        self . fc2 = quant_linear_dorefa ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetIAO ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetIAO , self ). __init__ ()
        self . conv1 = quant_conv_iao ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_iao ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_iao ( 320 , 50 )
        self . fc2 = quant_linear_iao ( 50 , 10 )
        self . max_pool = quant_max_pool_iao ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


lenet = LeNet ()
quant_lenet_wbwtab = QuantLeNetWbWtAb ()
quant_lenet_dorefa = QuantLeNetDoReFa ()
quant_lenet_iao = QuantLeNetIAO ()

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_wbwtab*** n " , quant_lenet_wbwtab )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

quant_test_auto.py

แบบจำลองสามารถวัดปริมาณได้ (สูง (> 2B), ต่ำบิต (≤2b)/ternary และไบนารี) เพียงแค่ใช้ micronet.compression.quantization.quantize.prepare (รุ่น)

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

import micronet . compression . quantization . wqaq . dorefa . quantize as quant_dorefa
import micronet . compression . quantization . wqaq . iao . quantize as quant_iao


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


"""
--w_bits --a_bits, 权重W和特征A量化位数
--q_type, 量化类型(0-对称, 1-非对称)
--q_level, 权重量化级别(0-通道级, 1-层级)
--weight_observer, weight_observer选择(0-MinMaxObserver, 1-MovingAverageMinMaxObserver)
--bn_fuse, 量化中bn融合标志
--bn_fuse_calib, 量化中bn融合校准标志
--pretrained_model, 预训练浮点模型
--qaft, qaft标志
--ptq, ptq标志
--percentile, ptq校准的比例
"""
lenet = LeNet ()
quant_lenet_dorefa = quant_dorefa . prepare ( lenet , inplace = False , a_bits = 8 , w_bits = 8 )
quant_lenet_iao = quant_iao . prepare (
    lenet ,
    inplace = False ,
    a_bits = 8 ,
    w_bits = 8 ,
    q_type = 0 ,
    q_level = 0 ,
    weight_observer = 0 ,
    bn_fuse = False ,
    bn_fuse_calib = False ,
    pretrained_model = False ,
    qaft = False ,
    ptq = False ,
    percentile = 0.9999 ,
)

# if ptq == False, do qat/qaft, need train
# if ptq == True, do ptq, don't need train
# you can refer to micronet/compression/quantization/wqaq/iao/main.py

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

ทดสอบ

quant_test_manual

python -c " import micronet; micronet.quant_test_manual() "

quant_test_auto

python -c " import micronet; micronet.quant_test_auto() "

เมื่อเอาท์พุท "Quant_Model พร้อม" Microt ก็พร้อม

การใช้เหตุผลเชิงปริมาณ

การอ้างอิง BN Fusion และการทดสอบการอนุมานเชิงปริมาณ

การเปรียบเทียบข้อมูลที่บีบอัดแบบจำลอง (สำหรับการอ้างอิงเท่านั้น)

ต่อไปนี้เป็นตัวอย่าง CIFAR10 ที่คุณสามารถลองใช้วิธีการบีบอัดแบบรวมอื่น ๆ ในรุ่นที่ซ้ำซ้อนมากขึ้นและชุดข้อมูลขนาดใหญ่ขึ้น

พิมพ์	W (บิต)	A (บิต)	ACC	gflops	Para (M)	ขนาด (MB)	อัตราการบีบอัด	การสูญเสีย
โมเดลต้นฉบับ (NIN)	fp32	fp32	91.01%	0.15	0.67	2.68	-	-
การใช้โครงสร้างการรวมกลุ่ม (NIN_GC)	fp32	fp32	91.04%	0.15	0.58	2.32	13.43%	-0.03%
การตัดแต่ง	fp32	fp32	90.26%	0.09	0.32	1.28	52.24%	0.75%
การหาปริมาณ	1	fp32	90.93%	-	0.58	0.204	92.39%	0.08%
การหาปริมาณ	1.5	fp32	91%	-	0.58	0.272	89.85%	0.01%
การหาปริมาณ	1	1	86.23%	-	0.58	0.204	92.39%	4.78%
การหาปริมาณ	1.5	1	86.48%	-	0.58	0.272	89.85%	4.53%
ปริมาณ (Dorefa)	8	8	91.03%	-	0.58	0.596	77.76%	-0.02%
ปริมาณ (IAO, ปริมาณเต็ม, สมมาตร/ต่อช่องทาง/BN_FUSE)	8	8	90.99%	-	0.58	0.596	77.76%	0.02%
การจัดกลุ่ม + การตัดแต่งกิ่ง + quantization	1.5	1	86.13%	-	0.32	0.19	92.91%	4.88%

-train_batch_size 256, การ์ดใบเดียว

ข้อมูลที่เกี่ยวข้อง

การบีบอัด

การหาปริมาณ

ไส้

ค่าไบนารี

BinarizedNeuralNetWorks: TrainingNeuralNetworks withweights และ activationsConstrained to +1 หรือ 1
xnor-net: imagenetclassi ﬁ cusingbinary convolutionalneuralnetworks
การศึกษาเชิงประจักษ์ของการเพิ่มประสิทธิภาพของเครือข่ายประสาทไบนารี
การทบทวนเครือข่ายประสาท binarized

สามค่า

เครือข่ายน้ำหนักที่สอง

บิตสูง

DOREFA-NET: การฝึกอบรมเครือข่ายประสาทแบบ bitWidth ต่ำที่มีการไล่ระดับสีต่ำ
ปริมาณและการฝึกอบรมเครือข่ายประสาทเพื่อการอนุมานจำนวนเต็มอย่างมีประสิทธิภาพเท่านั้น
การหาปริมาณเครือข่ายเชิงลึกเพื่อการอนุมานที่มีประสิทธิภาพ: กระดาษสีขาว