Unduh micronet - Unduh Kode Sumber micronet

Mikronet

"Saat ini, ada dua sekolah di bidang pembelajaran yang mendalam. Satu adalah sekolah akademik, yang mempelajari jaringan model yang kuat dan kompleks dan metode eksperimental untuk mengejar kinerja yang lebih tinggi; yang lain adalah sekolah teknik, yang bertujuan untuk menerapkan algoritma yang lebih sulit dan secara efisien pada platform perangkat keras. Skala yang berkembang dari jaringan saraf yang dalam telah membawa tantangan besar untuk penyebaran pembelajaran mendalam di terminal seluler, dan kompresi dan penyebaran model pembelajaran yang mendalam telah menjadi salah satu bidang penelitian yang difokuskan oleh akademisi dan industri. "

Pendahuluan Proyek

Mikrot, model kompresi dan menggunakan lib.

kompresi

Kuantifikasi: bit tinggi (> 2b): qat, ptq, qaft; Rendah (≤2b)/ternary dan biner: qat
Pemangkasan: pemangkasan struktur konvolusional normal, teratur dan dikelompokkan
BN Fusion untuk kuantisasi biner untuk fitur (a) (parameter pengikat bn—> conv)
BN Fusion dikuantisasi oleh bit tinggi (dalam kuantisasi pelatihan, fusi pertama dan kuantisasi, fusi: parameter bn—> bobot con dan bias b)

menyebarkan

TensorRT (FP32/FP16/INT8 (Kalibrasi PTQ), OP-Adapt (Upsample), Dynamic_Shape, dll.)

Struktur kode

Code_Structure

 micronet
├── __init__.py
├── base_module
│   ├── __init__.py
│   └── op.py
├── compression
│   ├── README.md
│   ├── __init__.py
│   ├── pruning
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── gc_prune.py
│   │   ├── main.py
│   │   ├── models_save
│   │   │   └── models_save.txt
│   │   └── normal_regular_prune.py
│   └── quantization
│       ├── README.md
│       ├── __init__.py
│       ├── wbwtab
│       │   ├── __init__.py
│       │   ├── bn_fuse
│       │   │   ├── bn_fuse.py
│       │   │   ├── bn_fused_model_test.py
│       │   │   └── models_save
│       │   │       └── models_save.txt
│       │   ├── main.py
│       │   ├── models_save
│       │   │   └── models_save.txt
│       │   └── quantize.py
│       └── wqaq
│           ├── __init__.py
│           ├── dorefa
│           │   ├── __init__.py
│           │   ├── main.py
│           │   ├── models_save
│           │   │   └── models_save.txt
│           │   ├── quant_model_test
│           │   │   ├── models_save
│           │   │   │   └── models_save.txt
│           │   │   ├── quant_model_para.py
│           │   │   └── quant_model_test.py
│           │   └── quantize.py
│           └── iao
│               ├── __init__.py
│               ├── bn_fuse
│               │   ├── bn_fuse.py
│               │   ├── bn_fused_model_test.py
│               │   └── models_save
│               │       └── models_save.txt
│               ├── main.py
│               ├── models_save
│               │   └── models_save.txt
│               └── quantize.py
├── data
│   └── data.txt
├── deploy
│   ├── README.md
│   ├── __init__.py
│   └── tensorrt
│       ├── README.md
│       ├── __init__.py
│       ├── calibrator.py
│       ├── eval_trt.py
│       ├── models
│       │   ├── __init__.py
│       │   └── models_trt.py
│       ├── models_save
│       │   └── calibration_seg.cache
│       ├── test_trt.py
│       └── util_trt.py
├── models
│   ├── __init__.py
│   ├── nin.py
│   ├── nin_gc.py
│   └── resnet.py
└── readme_imgs
    ├── code_structure.jpg
    └── micronet.xmind

Kemajuan Proyek

2019.12.4 , kirim pertama
12.8 , fitur DOREFA (a) diskalakan pertama (* 0.1) sebelum kuantisasi, dan kemudian dipotong untuk mengurangi kesalahan pemotongan
12.11 , tambahkan diagram struktur kode proyek
12.12, tingkatkan contoh penggunaan
12.14, Ditambahkan: 1. Situasi kuantisasi fusi BN (nilai tiga nilai/biner) adalah opsional, yaitu, ketika kuantisasi pelatihan, nilai tiga nilai/biner dipilih, dan berikut adalah seleksi yang sesuai; 2. Pemrosesan Kernel Konvolusi (CONV) tanpa bias selama BN Fusion
12.17 , tambahkan perbandingan data sebelum dan sesudah kompresi model (contoh)
12.20, tambahkan opsi perangkat (CPU, GPU (kartu tunggal, beberapa kartu))
12.27 , makalah terkait tambahan
12.29, menghilangkan batas kuantisasi bit tinggi dalam 8-bit, yaitu, sekarang dapat mengukur hingga 10-bit, 16-bit, dll.
2020.2.17 , 1. Menyederhanakan W Tiga-Nilai/Kode Kuantisasi Biner; 2. Pelatihan kuantisasi tiga nilai
2.18 , optimalkan fusi BN untuk nilai biner fitur (a): Lepaskan batasan pada parameter gamma lapisan BN, yaitu, BN dapat dilatih secara normal selama fusi dalam kasus ini.
2.24 , optimalkan struktur organisasi kode kuantisasi tiga/biner lagi untuk meningkatkan portabilitas, versi lama memang tidak mudah ditransplantasikan. Metode porting saat ini: Ganti CONV yang ingin Anda ukur dengan quantconv2d dalam kompresi/kuantisasi/wbwtab/model/util_wbwtab.py. Anda dapat merujuk pada metode penggunaan di nin_gc.py di bawah jalur ini
3.1 , ditambahkan: 1. Metode kuantisasi bit tinggi Google; 2. BN Fusion kuantisasi tinggi selama pelatihan
3.2 , 3.3, mengatur struktur keseluruhan kode kuantisasi. Saat ini, semua metode kuantisasi dapat mengadopsi metode porting yang serupa: CONV (atau FC, yang saat ini didukung oleh DOREFA, metode lain mirip dengan Writable) dapat digantikan oleh QuantConV2D (atau QuantLinear) dalam model/util_wxax.py. Anda dapat merujuk pada metode penggunaan di nin_gc.py di bawah jalur ini untuk porting (klasifikasi, deteksi, segmentasi, dll.
3.4 . Optimalkan secara teratur kode implementasi yang relevan dari "BN Fusion untuk fitur (a) Nilai biner" di wbwtab/bn_fuse, dan dapat melakukan uji fusi dan model perbandingan sebelum dan sesudah fusi (akurasi/kecepatan/(ukuran)))
3.11, sesuaikan parameter momentum lapisan BN dalam kompresi/wqaq/iao (0,1 -> 0,01), melemahkan proporsi parameter statistik batch, dan menekan jitter yang disebabkan oleh kuantisasi sampai batas tertentu. Setelah percobaan, pelatihan kuantitatif lebih stabil, ACC meningkat sekitar 1%.
3.13 , perbarui diagram struktur kode
4.6, memperbaiki masalah W_CLIP dalam pelatihan kuantisasi biner (sebelum, karena ini, akurasi pelatihan kuantisasi biner tidak ditingkatkan, dan sekarang dapat digunakan secara normal) (juga memperbaiki masalah tidak dapat menemukan beberapa modul seperti model/util_wxax.py)
12.14 , 1. Meningkatkan struktur kode; 2. Tambahkan Deploy-Tensorrt (modul utama, tetapi belum berjalan)
12.18, 1. Tingkatkan Struktur Kode/Referensi Modul/Module_name; 2. Tambahkan demo penggunaan transfer
12.21 , tingkatkan pipa dan kode pemangkasan
2021.1.4 , tambahkan quant_op lainnya
1.5, tambahkan pilihan per saluran quant_weight dan per lapis
1.7 , perbaiki bug kerugian-nan IAO. Bug disebabkan oleh kesalahan min/max per-channel
1.8, 1. Tingkatkan quant_para save. Sekarang, hanya simpan skala dan zero_point; 2. Tambahkan Weight_observer Opsional (MinMaxoBServer atau MovingAverageminMaxoBserver)
1.11 , perbaiki bug di Binary_a (1/0) dan preprocessing biner
1.12 , tambahkan "Pip Instal"
1.22 , tambahkan auto_insert_quant_op (ini masih perlu ditingkatkan)
1.27 , tingkatkan auto_insert_quant_op (sekarang Anda dapat dengan mudah menggunakan kuantisasi, sebagai quant_test_auto)
1.28, 1. Memperbaiki pipa dan kode prune-kuanisasi; 2. Tingkatkan Struktur Kode
2.1 , tingkatkan wbwtab_bn_fuse
2.4 , 1. Tambahkan wqaq_bn_fuse; 2. Tambahkan quant_model_inference_simulation; 3. Tingkatkan Format Kode
4.30, 1. Perbarui Code_Struktur IMG; 2. Perbaiki quant_weight_range IAO, quant_contrans dan quant_bn_fuse_conv pretrained_model bn_para load bug
5.4 , tambahkan Qaft , bermanfaat untuk meningkatkan akurasi kuantisasi
5.6 , tambahkan PTQ , akurasi kuantisasi juga bagus
5.11, tambahkan bendera bn_fuse_calib
5.14 , 1. Ubah Ste ke Clip_ste , itu bermanfaat untuk meningkatkan quant_train; 2. Hapus quant_relu dan tambahkan quant_leaky_relu
5.15, perbaiki bug di quant_model_para pasca pemrosesan
6.7 , tambahkan quant_add (perlu digunakan base_module's op) dan quant_resnet demo
6.9 , IAO_QUANT Dukungan Multi GPU
6.16, perbaiki quant_round () dan quant_binary ()
10.6, format

Persyaratan lingkungan

Python> = 3.5
obor> = 1.1.0
Torchvison> = 0.3.0
Numpy
onnx == 1.6.0
TensorRt == 7.0.0.11

Memasang

Pypi

pip install micronet -i https://pypi.org/simple

GitHub

git clone https://github.com/666DZY666/micronet.git
cd micronet
python setup.py install

memeriksa

python -c " import micronet; print(micronet.__version__) "

tes

Instal dari GitHub

kompresi

Hitungan

--Fine, dapat memuat parameter model floating point pretrain dan mengukurnya berdasarkan mereka

wbwtab

--W-A, Weight W dan fitur nilai kuantisasi

 cd micronet/compression/quantization/wbwtab

WBAB

python main.py --W 2 --A 2

WBA32

python main.py --W 2 --A 32

WTAB

python main.py --W 3 --A 2

WTA32

python main.py --W 3 --A 32

WQAQ

--w_bits --a_bits, bobot w dan fitur jumlah bit kuantisasi

Dorefa

 cd micronet/compression/quantization/wqaq/dorefa

W16A16

python main.py --w_bits 16 --a_bits 16

W8A8

python main.py --w_bits 8 --a_bits 8

W4A4

python main.py --w_bits 4 --a_bits 4

Analogi situasi bit lainnya

Iao

 cd micronet/compression/quantization/wqaq/iao

Seleksi digit kuantitatif sama dengan Dorefa

Kartu tunggal

Qat/ptq -> qaft

Lai Perhatikan bahwa Anda perlu melakukan qaft setelah qat/ptq!

--q_type, tipe kuantisasi (0-symmetric, 1-symmetric)

--q_level, level bobot (level 0-saluran, 1 level)

--weight_observer, seleksi Weight_observer (0-MinmaxoBserver, 1-MovingAverageminMaxoBserver)

-BN_FUSE, BN Fusion Flag dalam Kuantifikasi

--BN_FUSE_CALIB, tanda kalibrasi fusi BN dalam kuantisasi

--Pretrain_model, model floating point pretrained

--qaft, bendera qaft

--ptq, ptq_observer

--PTQ_CONTROL, PTQ_CONTROL

--ptq_batch, jumlah batch PTQ

--Pentile, rasio kalibrasi PTQ

Qat

Default: kuantisasi level saluran simetris, (berat), BN tidak fusi, bobot_observer-minmaxoBserver, model titik mengambang pra-terlatih tidak dimuat, qat

python main.py --q_type 0 --q_level 0 --weight_observer 0

Simetris, (Berat) Kuantisasi Level Saluran, BN bukan Fusion, Weight_observer-MovingAverageminMaxObserver

python main.py --q_type 0 --q_level 0 --weight_observer 1

Kuantisasi level simetris, (berat), BN tidak fusi

python main.py --q_type 0 --q_level 1

Kuantisasi level saluran asimetris, (berat), BN tidak fusi

python main.py --q_type 1 --q_level 0

Kuantisasi tingkat asimetris, (berat), BN tidak fusi

python main.py --q_type 1 --q_level 1

Kuantisasi level saluran simetris, (berat), fusi BN

python main.py --q_type 0 --q_level 0 --bn_fuse

Kuantisasi tingkat simetris, (berat), fusi BN

python main.py --q_type 0 --q_level 1 --bn_fuse

Kuantisasi level saluran asimetris, (berat), fusi BN

python main.py --q_type 1 --q_level 0 --bn_fuse

Kuantisasi tingkat asimetris, (berat), fusi BN

python main.py --q_type 1 --q_level 1 --bn_fuse

Kuantisasi tingkat saluran simetris, (berat), kalibrasi fusi BN

python main.py --q_type 0 --q_level 0 --bn_fuse --bn_fuse_calib

PTQ

Model titik mengambang pra-terlatih perlu dimuat, yang dapat diperoleh dengan pelatihan normal dalam pemangkasan.

Kuantisasi level saluran simetris, (berat), fusi BN

python main.py --refine ../../../pruning/models_save/nin_gc.pth --q_level 0 --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Analogi situasi lain

Qaft

Lai Perhatikan bahwa Anda perlu melakukan qaft setelah qat/ptq!

Qat -> qaft

Kuantisasi level saluran simetris, (berat), fusi BN

python main.py --resume models_save/nin_gc_bn_fused.pth --q_type 0 --q_level 0 --bn_fuse --qaft --lr 0.00001

Analogi situasi lain

PTQ -> Qaft

Kuantisasi level saluran simetris, (berat), fusi BN

python main.py --resume models_save/nin_gc_bn_fused.pth --q_level 0 --bn_fuse --qaft --lr 0.00001 --ptq

Analogi situasi lain

Pemangkasan

Pelatihan Jarang—> Pemangkasan—> Penyesuaian yang Baik

 cd micronet/compression/pruning

Pelatihan yang jarang

-Sr tanda jarang

-S rate jarang (perlu disesuaikan sesuai dengan dataset dan kondisi model)

-Model_type Model Tipe (0-nin, 1-nin_gc)

NIN (struktur konvolusional normal)

python main.py -sr --s 0.0001 --model_type 0

nin_gc (termasuk struktur konvolusional pengelompokan)

python main.py -sr --s 0.001 --model_type 1

Pemangkasan

-tingkat pemangkasan

-Normal_Regular normal, bendera pemangkasan reguler dan basis pemangkasan reguler (jika diatur ke n, jumlah filter per lapisan model setelah pemangkasan adalah kelipatan n)

-Model jalur model setelah pelatihan jarang

-Save Model Path yang disimpan setelah pemangkasan (jalur telah diberikan secara default dan dapat diubah sesuai dengan situasi aktual)

Pemangkasan normal (nin)

python normal_regular_prune.py --percent 0.5 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

Pemangkasan reguler (nin)

python normal_regular_prune.py --percent 0.5 --normal_regular 8 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

atau

python normal_regular_prune.py --percent 0.5 --normal_regular 16 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

Pemangkasan struktur konvolusional yang dikelompokkan (nin_gc)

python gc_prune.py --percent 0.4 --model models_save/nin_gc_sparse.pth

Penyesuaian yang baik

--prune_refine jalur model setelah pemangkasan (fine-tuning berdasarkan itu)

python main.py --model_type 0 --prune_refine models_save/nin_prune.pth

nin_gc

Anda harus lulus dalam CFG model baru yang diperoleh setelah pemangkasan

menyukai

python main.py --model_type 1 --gc_prune_refine 154 162 144 304 320 320 608 584

Pemangkasan—> Kuantifikasi (Perhatikan laju pemangkasan dan keseimbangan laju kuantisasi)

Memuat model titik mengambang yang dipangkas dan kemudian menghitungnya

Pemangkasan—> Kuantifikasi (tingkat tinggi) (laju pemangkasan terlalu besar dan laju kuantisasi terlalu kecil)

W8A8 (DOREFA)

 cd micronet/compression/quantization/wqaq/dorefa

NIN (struktur konvolusional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth

nin_gc (termasuk struktur konvolusional pengelompokan)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth

W8A8 (IAO)

 cd micronet/compression/quantization/wqaq/iao

Qat/ptq -> qaft

Lai Perhatikan bahwa Anda perlu melakukan qaft setelah qat/ptq!

Qat

BN tidak fusi

NIN (struktur konvolusional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --lr 0.001

nin_gc (termasuk struktur konvolusional pengelompokan)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --lr 0.001

BN Fusion

NIN (struktur konvolusional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --lr 0.001

nin_gc (termasuk struktur konvolusional pengelompokan)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --bn_fuse --pretrained_model --lr 0.001

PTQ

NIN (struktur konvolusional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Analogi situasi lain

Qaft

Lai Perhatikan bahwa Anda perlu melakukan qaft setelah qat/ptq!

Qat -> qaft

BN tidak fusi

NIN (struktur konvolusional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001

nin_gc (termasuk struktur konvolusional pengelompokan)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001

BN Fusion

NIN (struktur konvolusional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001

nin_gc (termasuk struktur konvolusional pengelompokan)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001

PTQ -> Qaft

BN tidak fusi

NIN (struktur konvolusional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001 --ptq

nin_gc (termasuk struktur konvolusional pengelompokan)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001 --ptq

BN Fusion

NIN (struktur konvolusional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

nin_gc (termasuk struktur konvolusional pengelompokan)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

Analogi konfigurasi kuantitatif opsional lainnya

Pemangkasan—> kuantisasi (rendah) (laju pemangkasan kecil, laju kuantisasi besar)

 cd micronet/compression/quantization/wbwtab

WBAB

NIN (struktur konvolusional normal)

python main.py --W 2 --A 2 --model_type 0 --prune_quant ../../pruning/models_save/nin_finetune.pth

nin_gc (termasuk struktur konvolusional pengelompokan)

python main.py --W 2 --A 2 --model_type 1 --prune_quant ../../pruning/models_save/nin_gc_retrain.pth

Analogi yang mengambil nilai lainnya

Tes fusi dan simulasi inferensi kuantitatif

wbwtab

 cd micronet/compression/quantization/wbwtab/bn_fuse

bn_fuse (dapatkan struktur dan parameter quant_model_train dan quant_bn_fused_model_inference)

--odel_type, 1 -nin_gc (termasuk struktur konvolusional yang dikelompokkan); 0 - NIN (Struktur Konvolusi Normal)

--Prune_quant, pruning_quantitative model bendera

--W, nilai kuantisasi berat

Semua harus konsisten dengan pelatihan kuantitatif, dan Anda dapat menggunakan default secara langsung

nin_gc, quant_model, wb

python bn_fuse.py --model_type 1 --W 2

nin_gc, prune_quant_model, wb

python bn_fuse.py --model_type 1 --prune_quant --W 2

nin_gc, quant_model, wt

python bn_fuse.py --model_type 1 --W 3

Nin, Quant_Model, WB

python bn_fuse.py --model_type 0 --W 2

bn_fuse_model_test (tes pada quant_model_train dan quant_bn_fused_model_inference)

python bn_fused_model_test.py

Dorefa

 cd micronet/compression/quantization/wqaq/dorefa/quant_model_test

quant_model_para (dapatkan struktur dan parameter quant_model_train dan quant_model_inference)

--odel_type, 1 -nin_gc (termasuk struktur konvolusional yang dikelompokkan); 0 - NIN (Struktur Konvolusi Normal)

--Prune_quant, pruning_quantitative model bendera

--w_bits, jumlah kuantisasi berat bit; --A_Bits, jumlah kuantisasi aktivasi bit

Semua harus konsisten dengan pelatihan kuantitatif, dan Anda dapat menggunakan default secara langsung

nin_gc, quant_model, w8a8

python quant_model_para.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python quant_model_para.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

nin, quant_model, w8a8

python quant_model_para.py --model_type 0 --w_bits 8 --a_bits 8

quant_model_test (tes quan_model_train dan quant_model_inference)

python quant_model_test.py

Iao

Perhatikan bahwa saat pelatihan terkuantisasi -BN_FUSE perlu diatur ke True

 cd micronet/compression/quantization/wqaq/iao/bn_fuse

BN_FUSE (Dapatkan struktur dan parameter Quant_bn_fused_model_train dan quant_bn_fused_model_inference)

--odel_type, 1 -nin_gc (termasuk struktur konvolusional yang dikelompokkan); 0 - NIN (Struktur Konvolusi Normal)

--Prune_quant, pruning_quantitative model bendera

--w_bits, jumlah kuantisasi berat bit; --A_Bits, jumlah kuantisasi aktivasi bit

--q_type, 0 -Symmetric; 1 - asimetris

--Q_LEVEL, 0 -Level Saluran; 1 - level

Semua harus konsisten dengan pelatihan kuantitatif, dan Anda dapat menggunakan default secara langsung

nin_gc, quant_model, w8a8

python bn_fuse.py --model_type 1 --w_bits 8 --a_bits 8

nin_gc, prune_quant_model, w8a8

python bn_fuse.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

nin, quant_model, w8a8

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8

nin_gc, quant_model, w8a8, asimetri, hierarki

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8 --q_type 1 --q_level 1

bn_fuse_model_test (tes pada quant_bn_fused_model_train dan quant_bn_fused_model_inference)

python bn_fused_model_test.py

Pemilihan peralatan

Sekarang mendukung CPU dan GPU (kartu tunggal, beberapa kartu)

--CPU Gunakan CPU, --GPU_ID Penggunaan dan pilih GPU

python main.py --cpu

Kartu tunggal GPU

python main.py --gpu_id 0

atau

python main.py --gpu_id 1

GPU Multicard

python main.py --gpu_id 0,1

atau

python main.py --gpu_id 0,1,2

Secara default, gunakan kartu penuh server

menyebarkan

Tensorrt

Saat ini, hanya kode modul inti yang relevan yang disediakan, dan demo runnable lengkap akan ditambahkan nanti.

Interpretasi terkait

Tensorrt-Basics
Tensorrt-Op/Dynamic_shape

bermigrasi

Pelatihan kuantitatif

Contoh Lenet

quant_test_manual.py

Suatu model dapat dikuantisasi (bit tinggi (> 2b), rendah-bit (≤2b)/ternary dan biner) dengan hanya mengganti OP dengan quant_op .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

# ``quantize`` is quant_module, ``QuantConv2d``, ``QuantLinear``, ``QuantMaxPool2d``, ``QuantReLU`` are quant_op
from micronet . compression . quantization . wbwtab . quantize import (
    QuantConv2d as quant_conv_wbwtab ,
)
from micronet . compression . quantization . wbwtab . quantize import (
    ActivationQuantizer as quant_relu_wbwtab ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantConv2d as quant_conv_dorefa ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantLinear as quant_linear_dorefa ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantConv2d as quant_conv_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantLinear as quant_linear_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantMaxPool2d as quant_max_pool_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantReLU as quant_relu_iao ,
)


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetWbWtAb ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetWbWtAb , self ). __init__ ()
        self . conv1 = quant_conv_wbwtab ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_wbwtab ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = quant_relu_wbwtab ()

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetDoReFa ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetDoReFa , self ). __init__ ()
        self . conv1 = quant_conv_dorefa ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_dorefa ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_dorefa ( 320 , 50 )
        self . fc2 = quant_linear_dorefa ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetIAO ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetIAO , self ). __init__ ()
        self . conv1 = quant_conv_iao ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_iao ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_iao ( 320 , 50 )
        self . fc2 = quant_linear_iao ( 50 , 10 )
        self . max_pool = quant_max_pool_iao ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


lenet = LeNet ()
quant_lenet_wbwtab = QuantLeNetWbWtAb ()
quant_lenet_dorefa = QuantLeNetDoReFa ()
quant_lenet_iao = QuantLeNetIAO ()

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_wbwtab*** n " , quant_lenet_wbwtab )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

quant_test_auto.py

Model dapat dikuantisasi (bit tinggi (> 2b), rendah-bit (≤2b)/ternary dan biner) hanya dengan menggunakan micronet.compression.quantization.quantize.prepare (model) .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

import micronet . compression . quantization . wqaq . dorefa . quantize as quant_dorefa
import micronet . compression . quantization . wqaq . iao . quantize as quant_iao


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


"""
--w_bits --a_bits, 权重W和特征A量化位数
--q_type, 量化类型(0-对称, 1-非对称)
--q_level, 权重量化级别(0-通道级, 1-层级)
--weight_observer, weight_observer选择(0-MinMaxObserver, 1-MovingAverageMinMaxObserver)
--bn_fuse, 量化中bn融合标志
--bn_fuse_calib, 量化中bn融合校准标志
--pretrained_model, 预训练浮点模型
--qaft, qaft标志
--ptq, ptq标志
--percentile, ptq校准的比例
"""
lenet = LeNet ()
quant_lenet_dorefa = quant_dorefa . prepare ( lenet , inplace = False , a_bits = 8 , w_bits = 8 )
quant_lenet_iao = quant_iao . prepare (
    lenet ,
    inplace = False ,
    a_bits = 8 ,
    w_bits = 8 ,
    q_type = 0 ,
    q_level = 0 ,
    weight_observer = 0 ,
    bn_fuse = False ,
    bn_fuse_calib = False ,
    pretrained_model = False ,
    qaft = False ,
    ptq = False ,
    percentile = 0.9999 ,
)

# if ptq == False, do qat/qaft, need train
# if ptq == True, do ptq, don't need train
# you can refer to micronet/compression/quantization/wqaq/iao/main.py

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

tes

quant_test_manual

python -c " import micronet; micronet.quant_test_manual() "

quant_test_auto

python -c " import micronet; micronet.quant_test_auto() "

Saat mengeluarkan "quant_model sudah siap", mikrot sudah siap.

Penalaran kuantitatif

Referensi BN Fusion dan tes simulasi inferensi kuantitatif

Perbandingan Data Terkompresi Model (hanya untuk referensi)

Berikut ini adalah contoh CIFAR10, di mana Anda dapat mencoba metode kompresi gabungan lainnya pada model yang lebih berlebihan dan set data yang lebih besar.

jenis	W (bit)	A (bit)	ACC	Gflops	Para (m)	Ukuran (MB)	Tingkat kompresi	kehilangan
Model Asli (NIN)	FP32	FP32	91,01%	0,15	0.67	2.68	***	***
Menggunakan Pengelompokan Struktur Konvolusi (NIN_GC)	FP32	FP32	91,04%	0,15	0,58	2.32	13,43%	-0,03%
Pemangkasan	FP32	FP32	90,26%	0,09	0.32	1.28	52,24%	0,75%
Hitungan	1	FP32	90,93%	***	0,58	0.204	92,39%	0,08%
Hitungan	1.5	FP32	91%	***	0,58	0.272	89,85%	0,01%
Hitungan	1	1	86,23%	***	0,58	0.204	92,39%	4,78%
Hitungan	1.5	1	86,48%	***	0,58	0.272	89,85%	4,53%
Kuantifikasi (DOREFA)	8	8	91,03%	***	0,58	0,596	77,76%	-0,02%
Kuantifikasi (IAO, kuantifikasi penuh, simetris/per-channel/bn_fuse)	8	8	90,99%	***	0,58	0,596	77,76%	0,02%
Pengelompokan + pemangkasan + kuantisasi	1.5	1	86,13%	***	0.32	0.19	92,91%	4,88%

--train_batch_size 256, kartu tunggal

Informasi terkait

kompresi

Hitungan

Qat

Nilai biner

BinarizedneuralNetWorks: pelatihaneureuralnetworks dengan bobot dan aktivasi yang dibatasi untuk +1 atau - 1
Xnor-net: ImagenetClassifiFusingbinary ConvolutionaleureuralNetWorks
Studi empiris optimasi jaringan saraf biner
Tinjauan jaringan saraf binarized

Tiga nilai

Jaringan Berat Besar Ternary

Bit tinggi

DOREFA-NET: Melatih jaringan saraf konvolusional bitwidth rendah dengan gradien bitwidth rendah
Kuantisasi dan pelatihan jaringan saraf untuk inferensi integer-aritmetika yang efisien
Kuantisasi jaringan konvolusional dalam untuk inferensi yang efisien: whitepaper