micronet Download - micronet Source Code Download

ميكرونيت

"في الوقت الحاضر ، هناك مدرستان في مجال التعلم العميق. إحداها هي مدرسة أكاديمية ، والتي تدرس شبكات نموذجية قوية ومعقدة وطرق تجريبية من أجل متابعة الأداء العالي ؛ والآخر هو مدرسة هندسية ، تهدف إلى تنفيذ خوارزميات عالية بشكل أكبر وفعالًا ، فإنها تُعتبر الأمر أكثر صعوبة ، مما يجعلها تؤدي إلى صعوبة من منصات المتغيرات المتغيرة. جلب النطاق المتزايد للشبكات العصبية العميقة تحديات هائلة لنشر التعلم العميق على محطة الهاتف المحمول ، وأصبح ضغط نموذج التعلم العميق ونشره أحد مجالات البحث التي ركزت عليها كل من الأوساط الأكاديمية والصناعة. "

مقدمة المشروع

microt ، ضغط النموذج ونشر lib.

ضغط

القياس الكمي: عالية بت (> 2 ب): QAT ، PTQ ، Qaft ؛ منخفضة بت (≤2b)/الثلاثية والثنائية: Qat
التقليم: تشذيب البنية التلافيفية العادية والمنتظمة والمجمعة
Bn Fusion for Quality binary for الميزة (أ) (معلمات BN الربط -> Conv)
BN Fusion كمية من خلال ارتفاع بت (في تقدير التدريب ، الانصهار الأول ثم القياس ، الانصهار: معلمات BN-> وزن القناصة والتحيز ب)

نشر

Tensorrt (FP32/FP16/int8 (PTQ-Calibration) ، op-adapt (upsample) ، dynamic_shape ، إلخ)

هيكل الكود

Code_structure

 micronet
├── __init__.py
├── base_module
│   ├── __init__.py
│   └── op.py
├── compression
│   ├── README.md
│   ├── __init__.py
│   ├── pruning
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── gc_prune.py
│   │   ├── main.py
│   │   ├── models_save
│   │   │   └── models_save.txt
│   │   └── normal_regular_prune.py
│   └── quantization
│       ├── README.md
│       ├── __init__.py
│       ├── wbwtab
│       │   ├── __init__.py
│       │   ├── bn_fuse
│       │   │   ├── bn_fuse.py
│       │   │   ├── bn_fused_model_test.py
│       │   │   └── models_save
│       │   │       └── models_save.txt
│       │   ├── main.py
│       │   ├── models_save
│       │   │   └── models_save.txt
│       │   └── quantize.py
│       └── wqaq
│           ├── __init__.py
│           ├── dorefa
│           │   ├── __init__.py
│           │   ├── main.py
│           │   ├── models_save
│           │   │   └── models_save.txt
│           │   ├── quant_model_test
│           │   │   ├── models_save
│           │   │   │   └── models_save.txt
│           │   │   ├── quant_model_para.py
│           │   │   └── quant_model_test.py
│           │   └── quantize.py
│           └── iao
│               ├── __init__.py
│               ├── bn_fuse
│               │   ├── bn_fuse.py
│               │   ├── bn_fused_model_test.py
│               │   └── models_save
│               │       └── models_save.txt
│               ├── main.py
│               ├── models_save
│               │   └── models_save.txt
│               └── quantize.py
├── data
│   └── data.txt
├── deploy
│   ├── README.md
│   ├── __init__.py
│   └── tensorrt
│       ├── README.md
│       ├── __init__.py
│       ├── calibrator.py
│       ├── eval_trt.py
│       ├── models
│       │   ├── __init__.py
│       │   └── models_trt.py
│       ├── models_save
│       │   └── calibration_seg.cache
│       ├── test_trt.py
│       └── util_trt.py
├── models
│   ├── __init__.py
│   ├── nin.py
│   ├── nin_gc.py
│   └── resnet.py
└── readme_imgs
    ├── code_structure.jpg
    └── micronet.xmind

تقدم المشروع

2019.12.4 ، إرسال أولا
12.8 ، يتم قياس ميزة Dorefa (A) أولاً (* 0.1) قبل القياس الكمي ، ثم يتم اقتطاعها لتقليل خطأ الاقتطاع
12.11 ، أضف مخطط بنية رمز المشروع
12.12 ، تحسين أمثلة الاستخدام
12.14 ، إضافة: 1. إن تحديد كميات الانصهار BN (W القيمة الثنائي/القيمة الثنائية) هو اختياري ، أي عند تحديد كمية التدريب ، يتم تحديد قيمة W ثلاث قيمة/ثنائية ، وهنا الاختيار المقابل ؛ 2. معالجة نواة الالتواء (CONC) بدون تحيز أثناء الانصهار BN
12.17 ، أضف مقارنة البيانات قبل وبعد ضغط النموذج (مثال)
12.20 ، إضافة خيارات الجهاز (وحدة المعالجة المركزية ، GPU (بطاقة واحدة ، بطاقة متعددة))
12.27 ، الأوراق التكميلية ذات الصلة
12.29 ، إزالة الحد من القياس الكمي العالي بت خلال 8 بت ، أي أنه يمكن الآن تحديد كمية إلى 10 بت ، 16 بت ، إلخ.
2020.2.17 ، 1. تبسيط W ثلاثية القيمة/الكميات الثنائية ؛ 2. تسريع W تدريب كميات ثلاث قيمة
2.18 ، قم بتحسين اندماج BN للقيم الثنائية للميزة (A): قم بإزالة القيود على معلمات Gamma BN ، أي BN يمكن تدريبها بشكل طبيعي أثناء الانصهار في هذه الحالة.
2.24 ، قم بتحسين بنية تنظيم رمز الكميات الثلاثة/الثنائية مرة أخرى لتعزيز قابلية النقل ، فإن الإصدار القديم ليس من السهل في الواقع زرعه. طريقة النقل الحالية: استبدل المقنع الذي تريد تحديده باستخدام QuantConv2d في الضغط/القياس الكمي/WBWTAB/النماذج/util_wbwtab.py. يمكنك الرجوع إلى طريقة الاستخدام في NIN_GC.PY تحت هذا المسار
3.1 ، أضيفت: 1. طريقة قياس الكميات العالية من Google ؛ 2. Bn Fusion من كمية عالية بت أثناء التدريب
3.2 ، 3.3 ، تنظيم الهيكل الكلي لرمز القياس. في الوقت الحاضر ، يمكن لجميع أساليب القياس الكمي أن تعتمد طريقة نقل مماثلة: يمكن استبدال Conv (أو FC ، المدعومة حاليًا بواسطة Dorefa ، طرقًا أخرى قابلة للكتابة) بـ QuantConv2d (أو QuantLinear) في النماذج/util_wxax.py. يمكنك الرجوع إلى طرق الاستخدام في NIN_GC.Py تحت هذا المسار للنور (التصنيف ، والكشف ، والتجزئة ، وما إلى ذلك ، ولكن يجب تصحيحها وفقًا للوضع الفعلي)
3.4 . قم بتحسين رمز التنفيذ ذي الصلة لـ "BN Fusion for الميزة (A) القيمة الثنائية" في WBWTAB/BN_FUSE ، ويمكنه إجراء اختبار مقارنة الانصهار ومقارنة النموذج قبل وبعد الانصهار (الدقة/السرعة/(الحجم))
3.11 ، اضبط معلمة زخم طبقة BN في الضغط/WQAQ/IAO (0.1 -> 0.01) ، إضعاف نسبة المعلمات الإحصائية الدُفعات ، وقمع الارتعاش الناجم عن القياس الكمي إلى حد ما. بعد التجارب ، يكون التدريب الكمي أكثر استقرارًا ، ويزداد ACC بنسبة 1 ٪ تقريبًا.
3.13 ، قم بتحديث مخطط هيكل الرمز
4.6 ، تم إصلاح مشكلة W_CLIP في التدريب على الكميات الثنائية (من قبل ، بسبب ذلك ، لم يتم تحسين دقة تدريب الكميات الثنائية ، والآن يمكن استخدامها بشكل طبيعي) (أيضًا تم إصلاح مشكلة عدم القدرة على العثور على بعض الوحدات مثل النماذج/util_wxax.py)
12.14 ، 1. تحسين هيكل الكود ؛ 2. أضف نشر tensorrt (الوحدة الرئيسية ، ولكن لا تعمل بعد)
12.18 ، 1. تحسين هيكل الكود/المرجع/الوحدة النمطية/module_name ؛ 2. أضف العرض التوضيحي لاستخدام النقل
12.21 ، تحسين خط أنابيب التقليم والرمز
2021.1.4 ، أضف Quant_OP آخر
1.5 ، أضف اختيار Quant_Weight لكل قناة
1.7 ، إصلاح خسارة Iao خسارة نان. الأخطاء بسبب خطأ لكل قناة دقيقة/كحد أقصى
1.8 ، 1. تحسين Quant_Para حفظ. الآن ، فقط حفظ المقياس و Zero_point ؛ 2. أضف Weight_Observer الاختياري (MinmaxObserver أو MovingaverageMinMaxObserver)
1.11 ، إصلاح الخلل في Binary_A (1/0) والمعالجة المسبقة Binary_W
1.12 ، أضف "تثبيت PIP"
1.22 ، أضف Auto_insert_quant_op (لا يزال هناك حاجة إلى تحسين)
1.27 ، تحسين Auto_insert_quant_op (يمكنك الآن استخدام الكميات بسهولة ، مثل Quant_test_auto)
1.28 ، 1. إصلاح خط أنابيب ورمز التقليم ؛ 2. تحسين بنية الكود
2.1 ، تحسين wbwtab_bn_fuse
2.4 ، 1. أضف wqaq_bn_fuse ؛ 2. إضافة Quant_Model_inference_simulation ؛ 3. تحسين تنسيق الرمز
4.30 ، 1. تحديث code_structure img ؛ 2. إصلاح Quant_Weight_Range ، Quant_Contrans و Quant_BN_FUSE_CONV pretRained_MODEL BN_PARA
5.4 ، أضف Qaft ، من المفيد تحسين دقة القياس الكمي
5.6 ، أضف PTQ ، دقة القياس الكمي جيدة أيضًا
5.11 ، أضف علامة BN_FUSE_CALIB
5.14 ، 1. تغيير ستيت إلى Clip_ste ، من المفيد تحسين Quant_train ؛ 2. قم بإزالة Quant_Relu وأضف Quant_Leaky_Relu
5.15 ، إصلاح الخلل في Quant_Model_Para بعد المعالجة
6.7 ، أضف Quant_Add (تحتاج إلى استخدام BASE_MODULE'S OP) و QUIT_RESNET DEMO
6.9 ، iao_quant دعم GPU
6.16 ، إصلاح Quant_Round () و Quant_Binary ()
10.6 ، التنسيق

المتطلبات البيئية

بيثون> = 3.5
الشعلة> = 1.1.0
Torchvison> = 0.3.0
numpy
ONNX == 1.6.0
Tensorrt == 7.0.0.11

ثَبَّتَ

pypi

pip install micronet -i https://pypi.org/simple

جيثب

git clone https://github.com/666DZY666/micronet.git
cd micronet
python setup.py install

يؤكد

python -c " import micronet; print(micronet.__version__) "

امتحان

تثبيت من جيثب

ضغط

الكمية

-REFINE ، يمكن تحميل معلمات نموذج نقطة العائمة المسبقة وتكميتها بناءً عليها بناءً عليها

WBWTAB

-W-A ، الوزن W وميز قيمة كمية

 cd micronet/compression/quantization/wbwtab

WBAB

python main.py --W 2 --A 2

WBA32

python main.py --W 2 --A 32

WTAB

python main.py --W 3 --A 2

WTA32

python main.py --W 3 --A 32

WQAQ

-w_bits-a_bits ، الوزن ث وميز عدد بتات كمية

دورفا

 cd micronet/compression/quantization/wqaq/dorefa

W16A16

python main.py --w_bits 16 --a_bits 16

W8A8

python main.py --w_bits 8 --a_bits 8

W4A4

python main.py --w_bits 4 --a_bits 4

تشبيه وضع البتات الأخرى

Iao

 cd micronet/compression/quantization/wqaq/iao

اختيار الأرقام الكمية مثل Dorefa

بطاقة واحدة

QAT/PTQ -> QAFT

! لاحظ أنك تحتاج إلى القيام Qaft بعد Qat/PTQ!

-q_type ، نوع الكمي (0-symmetric ، 1-symmetric)

-Q_LEVEL ، مستوى الترجيح (مستوى القناة 0 ، مستوى واحد)

-weight_observer ، اختيار eight_observer (0-minmaxobserver ، 1-movingaverageminmaxobserver)

-Bn_fuse ، علم الانصهار BN في القياس الكمي

-BN_FUSE_CALIB ، علامة معايرة الاندماج BN في القياس الكمي

-pretrabed_model ، نموذج نقطة عائم قبله

-Qaft ، علم Qaft

-PTQ ، PTQ_OBServer

-PTQ_CONTROL ، PTQ_CONTROL

-PTQ_BATCH ، عدد دفعات PTQ

-نسبة PTQ ، نسبة معايرة PTQ

قات

الافتراضي: كمية متماثلة ، (وزن) على مستوى القناة ، لا يتم دمج BN ، Weight_Observer-Minmaxobserver ، نموذج الفاصلة العائمة مسبقًا غير محملة ، Qat

python main.py --q_type 0 --q_level 0 --weight_observer 0

متماثل ، (الوزن) على مستوى القناة ، BN NOT FUSIN

python main.py --q_type 0 --q_level 0 --weight_observer 1

التكافؤ ، (الوزن) الكمي مستوى ، BN لا ينصح

python main.py --q_type 0 --q_level 1

غير متماثل ، (الوزن) الكمي على مستوى القناة ، BN لا ينصح

python main.py --q_type 1 --q_level 0

لا يتم تناسق مستوى (الوزن) الكمي (الوزن) ، BN لا ينصح

python main.py --q_type 1 --q_level 1

التكافؤ ، (الوزن) الكمي على مستوى القناة ، اندماج BN

python main.py --q_type 0 --q_level 0 --bn_fuse

متماثل ، (وزن) تقدير مستوى ، BN Fusion

python main.py --q_type 0 --q_level 1 --bn_fuse

الكمي على مستوى القناة (الوزن) غير المتماثل ، BN Fusion

python main.py --q_type 1 --q_level 0 --bn_fuse

تقوية مستوى (الوزن) غير المتماثلة ، BN Fusion

python main.py --q_type 1 --q_level 1 --bn_fuse

التكافؤ ، (الوزن) الكمي على مستوى القناة ، معايرة الانصهار BN

python main.py --q_type 0 --q_level 0 --bn_fuse --bn_fuse_calib

PTQ

يجب تحميل نموذج الفاصلة العائمة المدربين مسبقًا ، والذي يمكن الحصول عليه عن طريق التدريب العادي في التقليم.

التكافؤ ، (الوزن) الكمي على مستوى القناة ، اندماج BN

python main.py --refine ../../../pruning/models_save/nin_gc.pth --q_level 0 --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

حالات الوضع الأخرى

qaft

! لاحظ أنك تحتاج إلى القيام Qaft بعد Qat/PTQ!

Qat -> qaft

التكافؤ ، (الوزن) الكمي على مستوى القناة ، اندماج BN

python main.py --resume models_save/nin_gc_bn_fused.pth --q_type 0 --q_level 0 --bn_fuse --qaft --lr 0.00001

حالات الوضع الأخرى

PTQ -> qaft

التكافؤ ، (الوزن) الكمي على مستوى القناة ، اندماج BN

python main.py --resume models_save/nin_gc_bn_fused.pth --q_level 0 --bn_fuse --qaft --lr 0.00001 --ptq

حالات الوضع الأخرى

تشذيب

التدريب المتناثر -> التقليم -> تعديل غرامة

 cd micronet/compression/pruning

تدريب متناثر

-SR علامة تفريخ

-معدل الفرق (يجب تعديله وفقًا لشروط مجموعة البيانات وشروط النموذج)

-نوع طراز model_type (0-nin ، 1-nin_gc)

تسعة (بنية تلغيرات طبيعية)

python main.py -sr --s 0.0001 --model_type 0

NIN_GC (بما في ذلك التجميع بنية التلافيفية)

python main.py -sr --s 0.001 --model_type 1

تشذيب

-معدل التقليم في المائة

-normal_regular العادية ، العلامات التقليدية العادية وقاعدة التقليم العادية (إذا تم ضبطها على n ، فإن عدد المرشحات لكل طبقة من النموذج بعد التقليم هو مضاعف n)

-نموذج مسار النموذج بعد التدريب المتناثر

-احمل مسار النموذج المحفوظ بعد التقليم (تم إعطاء المسار افتراضيًا ويمكن تغييره وفقًا للوضع الفعلي)

التقليم الطبيعي (NIN)

python normal_regular_prune.py --percent 0.5 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

التقليم العادي (NIN)

python normal_regular_prune.py --percent 0.5 --normal_regular 8 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

أو

python normal_regular_prune.py --percent 0.5 --normal_regular 16 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

تشذيب البنية التلافيفية المجمعة (NIN_GC)

python gc_prune.py --percent 0.4 --model models_save/nin_gc_sparse.pth

تعديل غرامة

-prune_refine مسار النموذج بعد التقليم (صقله بناءً عليه)

تسعة

python main.py --model_type 0 --prune_refine models_save/nin_prune.pth

NIN_GC

تحتاج إلى المرور في CFG من النموذج الجديد الذي تم الحصول عليه بعد التقليم

يحب

python main.py --model_type 1 --gc_prune_refine 154 162 144 304 320 320 608 584

التقليم -> القياس الكمي (لاحظ أن معدل التقليم وتوازن معدل الكمي)

قم بتحميل نموذج النقطة العائمة المشبعة ثم حدده

التقليم -> القياس الكمي (المستوى العالي) (معدل التقليم كبير جدًا ومعدل القياس الكمي صغير جدًا)

W8A8 (Dorefa)

 cd micronet/compression/quantization/wqaq/dorefa

تسعة (بنية تلغيرات طبيعية)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth

NIN_GC (بما في ذلك التجميع بنية التلافيفية)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth

W8A8 (IAO)

 cd micronet/compression/quantization/wqaq/iao

QAT/PTQ -> QAFT

! لاحظ أنك تحتاج إلى القيام Qaft بعد Qat/PTQ!

قات

BN لا يندمج

تسعة (بنية تلغيرات طبيعية)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --lr 0.001

NIN_GC (بما في ذلك التجميع بنية التلافيفية)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --lr 0.001

BN Fusion

تسعة (بنية تلغيرات طبيعية)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --lr 0.001

NIN_GC (بما في ذلك التجميع بنية التلافيفية)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --bn_fuse --pretrained_model --lr 0.001

PTQ

تسعة (بنية تلغيرات طبيعية)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

حالات الوضع الأخرى

qaft

! لاحظ أنك تحتاج إلى القيام Qaft بعد Qat/PTQ!

Qat -> qaft

BN لا يندمج

تسعة (بنية تلغيرات طبيعية)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001

NIN_GC (بما في ذلك التجميع بنية التلافيفية)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001

BN Fusion

تسعة (بنية تلغيرات طبيعية)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001

NIN_GC (بما في ذلك التجميع بنية التلافيفية)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001

PTQ -> qaft

BN لا يندمج

تسعة (بنية تلغيرات طبيعية)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001 --ptq

NIN_GC (بما في ذلك التجميع بنية التلافيفية)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001 --ptq

BN Fusion

تسعة (بنية تلغيرات طبيعية)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

NIN_GC (بما في ذلك التجميع بنية التلافيفية)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

تشبيهات التكوين الكمية الاختيارية الأخرى

التقليم -> القياس (منخفض) (معدل التقليم صغير ، ومعدل القياس الكمي كبير)

 cd micronet/compression/quantization/wbwtab

WBAB

تسعة (بنية تلغيرات طبيعية)

python main.py --W 2 --A 2 --model_type 0 --prune_quant ../../pruning/models_save/nin_finetune.pth

NIN_GC (بما في ذلك التجميع بنية التلافيفية)

python main.py --W 2 --A 2 --model_type 1 --prune_quant ../../pruning/models_save/nin_gc_retrain.pth

تشبيهات القيمة الأخرى

BN الانصهار واختبار محاكاة الاستدلال الكمي

WBWTAB

 cd micronet/compression/quantization/wbwtab/bn_fuse

bn_fuse (احصل على بنية ومعلمات Quant_Model_Train و Quant_BN_FUSED_MODEL_INFERENT)

-model_type ، 1 -nin_gc (بما في ذلك الهيكل التلافيفي المجمعة) ؛ 0 - NIN (بنية تلغيرات طبيعية)

-prune_quant ، علم النموذج pruning_quantitive

-W ، قيمة قياس الوزن

يجب أن تكون جميعها متسقة مع التدريب الكمي ، ويمكنك استخدام الافتراضي مباشرة

Nin_GC ، Quant_Model ، WB

python bn_fuse.py --model_type 1 --W 2

NIN_GC ، PRUNE_QUANT_MODEL ، WB

python bn_fuse.py --model_type 1 --prune_quant --W 2

Nin_GC ، Quant_Model ، بالوزن

python bn_fuse.py --model_type 1 --W 3

Nin ، Quant_Model ، Wb

python bn_fuse.py --model_type 0 --W 2

bn_fused_model_test (اختبارات على Quant_model_train و Quant_BN_FUSED_MODEL_INFERENT)

python bn_fused_model_test.py

دورفا

 cd micronet/compression/quantization/wqaq/dorefa/quant_model_test

Quant_model_para (احصل على بنية ومعلمات Quant_Model_Train و Quant_Model_Inference)

-model_type ، 1 -nin_gc (بما في ذلك الهيكل التلافيفي المجمعة) ؛ 0 - NIN (بنية تلغيرات طبيعية)

-prune_quant ، علم النموذج pruning_quantitive

-W_BITS ، عدد الكميات في الوزن عدد البتات ؛ -A_BITS ، تقدير كمية التنشيط عدد البتات

يجب أن تكون جميعها متسقة مع التدريب الكمي ، ويمكنك استخدام الافتراضي مباشرة

Nin_GC ، Quant_Model ، W8A8

python quant_model_para.py --model_type 1 --w_bits 8 --a_bits 8

NIN_GC ، PRUNE_QUANT_MODEL ، W8A8

python quant_model_para.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

Nin ، Quant_Model ، W8A8

python quant_model_para.py --model_type 0 --w_bits 8 --a_bits 8

Quant_model_test (اختبارات Quant_Model_Train و Quant_Model_Inference)

python quant_model_test.py

Iao

لاحظ أنه عند التدريب الكمي -يجب ضبط bn_fuse على صحيح

 cd micronet/compression/quantization/wqaq/iao/bn_fuse

bn_fuse (احصل على بنية ومعلمات Quant_BN_FUSED_MODEL_TRAIN و QUIT_BN_FUSED_MODEL_INFERENT)

-model_type ، 1 -nin_gc (بما في ذلك الهيكل التلافيفي المجمعة) ؛ 0 - NIN (بنية تلغيرات طبيعية)

-prune_quant ، علم النموذج pruning_quantitive

-W_BITS ، عدد الكميات في الوزن عدد البتات ؛ -A_BITS ، تقدير كمية التنشيط عدد البتات

-q_type ، 0 -متماثل ؛ 1 - غير متماثل

-q_level ، 0 -مستوى القناة ؛ 1 - المستوى

يجب أن تكون جميعها متسقة مع التدريب الكمي ، ويمكنك استخدام الافتراضي مباشرة

Nin_GC ، Quant_Model ، W8A8

python bn_fuse.py --model_type 1 --w_bits 8 --a_bits 8

NIN_GC ، PRUNE_QUANT_MODEL ، W8A8

python bn_fuse.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

Nin ، Quant_Model ، W8A8

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8

Nin_GC ، Quant_Model ، W8A8 ، عدم التماثل ، التسلسل الهرمي

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8 --q_type 1 --q_level 1

bn_fused_model_test (اختبارات على Quant_bn_fused_model_train و Quant_bn_fused_model_inference)

python bn_fused_model_test.py

اختيار المعدات

يدعم الآن وحدة المعالجة المركزية و GPU (بطاقة واحدة ، بطاقة متعددة)

-CPU استخدم وحدة المعالجة المركزية ،-GPU_ID الاستخدام وحدد GPU

وحدة المعالجة المركزية

python main.py --cpu

بطاقة GPU واحدة

python main.py --gpu_id 0

أو

python main.py --gpu_id 1

GPU Multirecard

python main.py --gpu_id 0,1

أو

python main.py --gpu_id 0,1,2

افتراضيًا ، استخدم البطاقة الكاملة للخادم

نشر

Tensorrt

حاليًا ، يتم توفير رمز الوحدة الأساسية ذات الصلة فقط ، وسيتم إضافة عرض تجريبي كامل يمكن تشغيله لاحقًا.

التفسيرات ذات الصلة

Tensorrt-Basics
Tensort-op/dynamic_shape

تهاجر

التدريب الكمي

مثال لينيت

Quant_test_manual.py

يمكن تقدير كمية النموذج (عالية بت (> 2 ب) ، منخفضة بت (≤2b)/الثلاثي والثنائي) عن طريق استبدال OP مع Quant_OP .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

# ``quantize`` is quant_module, ``QuantConv2d``, ``QuantLinear``, ``QuantMaxPool2d``, ``QuantReLU`` are quant_op
from micronet . compression . quantization . wbwtab . quantize import (
    QuantConv2d as quant_conv_wbwtab ,
)
from micronet . compression . quantization . wbwtab . quantize import (
    ActivationQuantizer as quant_relu_wbwtab ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantConv2d as quant_conv_dorefa ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantLinear as quant_linear_dorefa ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantConv2d as quant_conv_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantLinear as quant_linear_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantMaxPool2d as quant_max_pool_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantReLU as quant_relu_iao ,
)


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetWbWtAb ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetWbWtAb , self ). __init__ ()
        self . conv1 = quant_conv_wbwtab ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_wbwtab ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = quant_relu_wbwtab ()

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetDoReFa ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetDoReFa , self ). __init__ ()
        self . conv1 = quant_conv_dorefa ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_dorefa ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_dorefa ( 320 , 50 )
        self . fc2 = quant_linear_dorefa ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetIAO ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetIAO , self ). __init__ ()
        self . conv1 = quant_conv_iao ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_iao ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_iao ( 320 , 50 )
        self . fc2 = quant_linear_iao ( 50 , 10 )
        self . max_pool = quant_max_pool_iao ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


lenet = LeNet ()
quant_lenet_wbwtab = QuantLeNetWbWtAb ()
quant_lenet_dorefa = QuantLeNetDoReFa ()
quant_lenet_iao = QuantLeNetIAO ()

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_wbwtab*** n " , quant_lenet_wbwtab )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

Quant_test_auto.py

يمكن تقدير النموذج (عالية بت (> 2 ب) ، منخفضة بت (≤2b)/الثلاثية والثنائية) عن طريق استخدام micronet.compression.quantization.quantize.prepare (نموذج) .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

import micronet . compression . quantization . wqaq . dorefa . quantize as quant_dorefa
import micronet . compression . quantization . wqaq . iao . quantize as quant_iao


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


"""
--w_bits --a_bits, 权重W和特征A量化位数
--q_type, 量化类型(0-对称, 1-非对称)
--q_level, 权重量化级别(0-通道级, 1-层级)
--weight_observer, weight_observer选择(0-MinMaxObserver, 1-MovingAverageMinMaxObserver)
--bn_fuse, 量化中bn融合标志
--bn_fuse_calib, 量化中bn融合校准标志
--pretrained_model, 预训练浮点模型
--qaft, qaft标志
--ptq, ptq标志
--percentile, ptq校准的比例
"""
lenet = LeNet ()
quant_lenet_dorefa = quant_dorefa . prepare ( lenet , inplace = False , a_bits = 8 , w_bits = 8 )
quant_lenet_iao = quant_iao . prepare (
    lenet ,
    inplace = False ,
    a_bits = 8 ,
    w_bits = 8 ,
    q_type = 0 ,
    q_level = 0 ,
    weight_observer = 0 ,
    bn_fuse = False ,
    bn_fuse_calib = False ,
    pretrained_model = False ,
    qaft = False ,
    ptq = False ,
    percentile = 0.9999 ,
)

# if ptq == False, do qat/qaft, need train
# if ptq == True, do ptq, don't need train
# you can refer to micronet/compression/quantization/wqaq/iao/main.py

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

امتحان

Quant_test_manual

python -c " import micronet; micronet.quant_test_manual() "

Quant_test_auto

python -c " import micronet; micronet.quant_test_auto() "

عند إخراج "Quant_Model جاهز" ، يكون Microt جاهزًا.

التفكير الكمي

مرجع BN الانصهار واختبار محاكاة الاستدلال الكمي

مقارنة بين البيانات المضغوطة النموذجية (للرجوع إليها فقط)

فيما يلي مثال CIFAR10 ، حيث يمكنك تجربة طرق الضغط المدمجة الأخرى على النماذج الأكثر زائدة عن الحاجة ومجموعات البيانات الأكبر.

يكتب	ث (بت)	(بت)	ACC	gflops	الفقرة (م)	الحجم (MB)	معدل الضغط	خسارة
النموذج الأصلي (NIN)	FP32	FP32	91.01 ٪	0.15	0.67	2.68	***	***
باستخدام هيكل إتلاف التجميع (NIN_GC)	FP32	FP32	91.04 ٪	0.15	0.58	2.32	13.43 ٪	-0.03 ٪
تشذيب	FP32	FP32	90.26 ٪	0.09	0.32	1.28	52.24 ٪	0.75 ٪
الكمية	1	FP32	90.93 ٪	***	0.58	0.204	92.39 ٪	0.08 ٪
الكمية	1.5	FP32	91 ٪	***	0.58	0.272	89.85 ٪	0.01 ٪
الكمية	1	1	86.23 ٪	***	0.58	0.204	92.39 ٪	4.78 ٪
الكمية	1.5	1	86.48 ٪	***	0.58	0.272	89.85 ٪	4.53 ٪
القياس الكمي (dorefa)	8	8	91.03 ٪	***	0.58	0.596	77.76 ٪	-0.02 ٪
القياس الكمي (IAO ، الكمي الكامل ، متماثل/لكل قناة/BN_FUSE)	8	8	90.99 ٪	***	0.58	0.596	77.76 ٪	0.02 ٪
التجميع + التقليم + القياس الكمي	1.5	1	86.13 ٪	***	0.32	0.19	92.91 ٪	4.88 ٪

-train_batch_size 256 ، بطاقة واحدة

المعلومات ذات الصلة

ضغط

الكمية

قات

القيمة الثنائية

binarizedneuralnetworks: TrainingNuralNetWorks withweights و activationscreatedto +1 أو 1
Xnor-Net: ImageNetClassi controlutionalnuralnuralnetworks
دراسة تجريبية لتحسين الشبكات العصبية الثنائية
مراجعة للشبكات العصبية ذات الثقة

ثلاث قيم

شبكات الوزن الثلاثية

عالية بت

Dorefa-Net: تدريب الشبكات العصبية التلافيفية منخفضة Bitwidth مع تدرجات BitWidth منخفضة
كمية وتدريب الشبكات العصبية لاستدلال عدد صحيح فعال فقط
كمية الشبكات التلافيفية العميقة للاستدلال الفعال: ورقة بيضاء