Download do micronet - Download de código fonte micronet

Micronet

"Atualmente, existem duas escolas no campo da aprendizagem profunda. Um é uma escola acadêmica, que estuda redes modelo poderosas e complexas e métodos experimentais, a fim de buscar um desempenho mais alto; o outro é uma escola de engenharia, que tem como objetivo implementar que os modelos complexos tenham um melhor desempenho, com mais eficiência que se apliquem, que é um melhor desempenho, que é possível que os algoritmos tenham um melhor desempenho, com mais de maneira alta e eficiente, a eficiência de que a eficiência é que os modelos complexos tenham um melhor desempenho, o melhor desempenho, o alto e eficiente das plataformas de hardware. A crescente escala de redes neurais profundas trouxe enormes desafios à implantação de aprendizado profundo no terminal móvel, e a compressão e a implantação do modelo de aprendizado profundo se tornaram uma das áreas de pesquisa em que a academia e a indústria se concentraram ".

Introdução ao projeto

Microt, um modelo de compactação e implantação LIB.

compressão

Quantificação: alto bit (> 2b): qat, ptq, qaft; Bit baixo (≤2b)/ternário e binário: qat
Poda: poda de estrutura convolucional normal, regular e agrupada
BN Fusion para quantização binária para o recurso (a) (parâmetros de ligação ao BN -> Conv)
BN Fusion Quantizada por alto bit (na quantização do treinamento, primeira fusão e depois quantização, fusão: parâmetros BN-> Conv Weight w e viés b)

implantar

Tensorrt (fp32/fp16/int8 (calibração ptq), op-adapt (upsample), dinâmico_shape, etc.)

Estrutura de código

code_structure

 micronet
├── __init__.py
├── base_module
│   ├── __init__.py
│   └── op.py
├── compression
│   ├── README.md
│   ├── __init__.py
│   ├── pruning
│   │   ├── README.md
│   │   ├── __init__.py
│   │   ├── gc_prune.py
│   │   ├── main.py
│   │   ├── models_save
│   │   │   └── models_save.txt
│   │   └── normal_regular_prune.py
│   └── quantization
│       ├── README.md
│       ├── __init__.py
│       ├── wbwtab
│       │   ├── __init__.py
│       │   ├── bn_fuse
│       │   │   ├── bn_fuse.py
│       │   │   ├── bn_fused_model_test.py
│       │   │   └── models_save
│       │   │       └── models_save.txt
│       │   ├── main.py
│       │   ├── models_save
│       │   │   └── models_save.txt
│       │   └── quantize.py
│       └── wqaq
│           ├── __init__.py
│           ├── dorefa
│           │   ├── __init__.py
│           │   ├── main.py
│           │   ├── models_save
│           │   │   └── models_save.txt
│           │   ├── quant_model_test
│           │   │   ├── models_save
│           │   │   │   └── models_save.txt
│           │   │   ├── quant_model_para.py
│           │   │   └── quant_model_test.py
│           │   └── quantize.py
│           └── iao
│               ├── __init__.py
│               ├── bn_fuse
│               │   ├── bn_fuse.py
│               │   ├── bn_fused_model_test.py
│               │   └── models_save
│               │       └── models_save.txt
│               ├── main.py
│               ├── models_save
│               │   └── models_save.txt
│               └── quantize.py
├── data
│   └── data.txt
├── deploy
│   ├── README.md
│   ├── __init__.py
│   └── tensorrt
│       ├── README.md
│       ├── __init__.py
│       ├── calibrator.py
│       ├── eval_trt.py
│       ├── models
│       │   ├── __init__.py
│       │   └── models_trt.py
│       ├── models_save
│       │   └── calibration_seg.cache
│       ├── test_trt.py
│       └── util_trt.py
├── models
│   ├── __init__.py
│   ├── nin.py
│   ├── nin_gc.py
│   └── resnet.py
└── readme_imgs
    ├── code_structure.jpg
    └── micronet.xmind

Progresso do projeto

2019.12.4 , primeiro envie
12.8 , o recurso Dorefa (a) é escalado primeiro (* 0,1) antes da quantização e depois trunce para reduzir o erro de truncamento
12.11 , adicione o diagrama de estrutura do código do projeto
12.12, melhorar exemplos de uso
12.14, adicionado: 1. A situação de quantização da fusão do BN (valor de três valores/binários) é opcional, ou seja, quando a quantização do treinamento, o valor de três valores/binário é selecionado e aqui está a seleção correspondente; 2. O processamento do kernel da convolução (conv) sem preconceito durante a fusão do BN
12.17 , adicione a comparação de dados antes e depois da compactação do modelo (exemplo)
12.20, adicione opções de dispositivo (CPU, GPU (cartão único, cartão múltiplo))
12.27 , documentos relacionados suplementares
12.29, removendo o limite de quantização de alto bit em 8 bits, ou seja, agora pode quantificar para 10 bits, 16 bits, etc.
2020.2.17 , 1. Simplifique o código de quantização de três valores/binários; 2. Acelere o treinamento de quantização de três valores
2.18 , otimize a fusão BN para valores binários do recurso (a): remova as limitações nos parâmetros gama da camada BN, ou seja, o BN pode ser treinado normalmente durante a fusão neste caso.
2.24 , otimize a estrutura da organização do código de quantização de três/binários novamente para aprimorar a portabilidade, a versão antiga não é realmente fácil de transplantar. Método de portamento atual: substitua o convulsão que você deseja quantificar com o QuantConv2D em compressão/quantização/wbwtab/modelos/util_wbwtab.py. Você pode se referir ao método de uso em nin_gc.py sob este caminho
3.1 , adicionado: 1. Método de quantização de alto bit do Google; 2. Fusão de BN de quantização de alto bit durante o treinamento
3.2 , 3.3, regularize a estrutura geral do código de quantização. Atualmente, todos os métodos de quantização podem adotar um método de portamento semelhante: o conv (ou fc, atualmente suportado por Dorefa, outros métodos são semelhantes ao gravável) podem ser substituídos pelo QuantConv2D (ou Quantlinear) em modelos/util_wxax.py. Você pode consultar os métodos de uso em nin_gc.py sob esse caminho para portar (classificação, detecção, segmentação etc. são aplicáveis, mas eles precisam ser depurados de acordo com a situação real)
3.4 . Otimize regularmente o código de implementação relevante de "BN Fusion for Feeking (a) Valor binário" no WBWTAB/BN_FUSE, e pode executar o teste de fusão BN e comparação de modelos antes e depois da fusão (precisão/velocidade/(tamanho))
3.11, ajuste o parâmetro de momento da camada BN no compressão/wqaq/iao (0,1 -> 0,01), enfraquece a proporção de parâmetros estatísticos em lote e suprime o jitter causado pela quantização em certa medida. Após as experiências, o treinamento quantitativo é mais estável, o ACC aumenta cerca de 1%.
3.13 , atualize o diagrama de estrutura de código
4.6, corrigiu o problema do W_Clip no treinamento de quantização binária (antes, devido a isso, a precisão do treinamento de quantização binária não foi melhorada e agora pode ser usada normalmente) (também corrigiu o problema de não ser capaz de encontrar alguns módulos como modelos/util_wxax.py)
12.14 , 1. Melhorar a estrutura do código; 2. Adicione a implantação (módulo principal, mas ainda não está funcionando)
12.18, 1. Melhore a estrutura do código/referência/module_name; 2. Adicione a demonstração de uso de transferência
12.21 , melhorar o pipeline e código de montização da poda
2021.1.4 , adicione outros quant_op
1.5, adicione a seleção por canal e por camada de camada do Quant_weight
1.7 , corrija o bug de perda de IAO-NAN. O bug é devido ao erro por canal min/máximo
1.8, 1. Melhore quant_para salvar. Agora, apenas salve escala e zero_point; 2. Adicione peso opcional (Minmaxobserver ou MovingAverageMinmaxobserver)
1.11 , corrige bug em binário_a (1/0) e binário_w pré -processamento
1.12 , adicione "install pip"
1.22 , adicione auto_insert_quant_op (isso ainda precisa ser melhorado)
1.27 , melhorar auto_insert_quant_op (agora você pode usar facilmente quantização, como quant_test_auto)
1.28, 1. Fix-Quantização Pipeline and Code; 2. Melhore a estrutura do código
2.1 , melhore o wbwtab_bn_fuse
2.4 , 1. Adicione wqaq_bn_fuse; 2. Adicione quant_model_inference_simulation; 3. Melhore o formato de código
4.30, 1. Atualize code_structure IMG; 2. Fix Iao's Quant_weight_Range, quant_contrans e quant_bn_fuse_conv predread_model bn_para load bug
5.4 , adicione QAFT , é benéfico melhorar a precisão da quantização
5.6 , adicione PTQ , sua precisão de quantização também é boa
5.11, adicione BN_FUSE_CALIB FAGN
5.14 , 1. Altere o ste para clip_ste , é benéfico melhorar o quant_train; 2. Remova quant_relu e adicione quant_leaky_relu
5.15, corrija o bug em quant_model_para pós-processamento
6.7 , adicione quant_add (preciso usar a demonstração de base_module) e quant_resnet
6.9 , Iao_quant Suporte Multi GPUs
6.16, Fix Quant_Round () e Quant_binary ()
10.6, formato

Requisitos ambientais

python> = 3.5
tocha> = 1.1.0
Torchvison> = 0.3.0
Numpy
onnx == 1.6.0
Tensorrt == 7.0.0.11

Instalar

Pypi

pip install micronet -i https://pypi.org/simple

Github

git clone https://github.com/666DZY666/micronet.git
cd micronet
python setup.py install

verificar

python -c " import micronet; print(micronet.__version__) "

teste

Instale no github

compressão

Quantificação

--Refine, pode carregar os parâmetros do modelo de ponto flutuante pré-traido e quantizá-los com base neles

wbwtab

--w --a, peso w e apresenta um valor quantizado

 cd micronet/compression/quantization/wbwtab

WBAB

python main.py --W 2 --A 2

WBA32

python main.py --W 2 --A 32

Wtab

python main.py --W 3 --A 2

WTA32

python main.py --W 3 --A 32

WQAQ

--w_bits --a_bits, peso w e apresenta uma contagem de bits quantizada

Dorefa

 cd micronet/compression/quantization/wqaq/dorefa

W16A16

python main.py --w_bits 16 --a_bits 16

W8A8

python main.py --w_bits 8 --a_bits 8

W4A4

python main.py --w_bits 4 --a_bits 4

Analogia da situação de outros bits

IAO

 cd micronet/compression/quantization/wqaq/iao

Seleção quantitativa de dígitos iguais ao Dorefa

Cartão único

Qat/ptq -> qaft

! Observe que você precisa fazer qaft após qat/ptq!

--q_type, tipo de quantização (0-simétrico, 1-simétrico)

--q_level, nível de ponderação (nível de 0 canal, 1 nível)

--weight_observer, Weight_observer Seleção (0-Minmaxobserver, 1-MOVINGINGEMINMAXOBSERVER)

--bn_fuse, bandeira de fusão bn em quantificação

--bn_fuse_calib, marca de calibração de fusão bn na quantização

-Modelo de ponto flutuante pré-traido, pré-terenciado

-qaft, sinalizador QAFT

--ptq, ptq_observer

--ptq_control, ptq_control

--ptq_batch, o número de lotes de PTQ

--Percentile, taxa de calibração PTQ

Qat

Padrão: quantização simétrica, (peso) no nível do canal, BN não fusion, peso_observer-minmaxobserver, o modelo de ponto flutuante pré-treinado não é carregado, qat

python main.py --q_type 0 --q_level 0 --weight_observer 0

Quantização simétrica, (peso) no nível do canal, não fusão, peso_observer-movingaverageMinmaxobserver

python main.py --q_type 0 --q_level 0 --weight_observer 1

Quantização simétrica, (peso), BN não fusão

python main.py --q_type 0 --q_level 1

Quantização assimétrica, (peso) no nível do canal, o BN não fusura

python main.py --q_type 1 --q_level 0

Quantização assimétrica, (peso), BN não fusão

python main.py --q_type 1 --q_level 1

Quantização simétrica, (peso) no nível do canal, fusão BN

python main.py --q_type 0 --q_level 0 --bn_fuse

Quantização simétrica, (peso), fusão de BN

python main.py --q_type 0 --q_level 1 --bn_fuse

Quantização assimétrica, (peso) no nível do canal, fusão BN

python main.py --q_type 1 --q_level 0 --bn_fuse

Quantização assimétrica, (peso), fusão BN

python main.py --q_type 1 --q_level 1 --bn_fuse

Quantização simétrica, (peso) no nível do canal, calibração de fusão BN

python main.py --q_type 0 --q_level 0 --bn_fuse --bn_fuse_calib

Ptq

O modelo de ponto flutuante pré-treinado precisa ser carregado, o que pode ser obtido por treinamento normal na poda.

Quantização simétrica, (peso) no nível do canal, fusão BN

python main.py --refine ../../../pruning/models_save/nin_gc.pth --q_level 0 --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Outras analogias da situação

Qaft

! Observe que você precisa fazer qaft após qat/ptq!

Qat -> qaft

Quantização simétrica, (peso) no nível do canal, fusão BN

python main.py --resume models_save/nin_gc_bn_fused.pth --q_type 0 --q_level 0 --bn_fuse --qaft --lr 0.00001

Outras analogias da situação

PTQ -> QAFT

Quantização simétrica, (peso) no nível do canal, fusão BN

python main.py --resume models_save/nin_gc_bn_fused.pth --q_level 0 --bn_fuse --qaft --lr 0.00001 --ptq

Outras analogias da situação

Podando

Treinamento esparso -> Avaros -> ajuste fino

 cd micronet/compression/pruning

Treinamento esparso

-SR Sinal esparso

-S Taxa escassa (precisa ser ajustada de acordo com o conjunto de dados e as condições do modelo)

-Model_type Tipo de modelo (0-NIN, 1-NIN_GC)

NIN (estrutura convolucional normal)

python main.py -sr --s 0.0001 --model_type 0

Nin_GC (incluindo a estrutura convolucional do agrupamento)

python main.py -sr --s 0.001 --model_type 1

Podando

-Taxa de poda de excesso

-Normal_regulular Normal, bandeiras de poda regular e base de poda regular (se definido como n, o número de filtros por camada do modelo após a poda é um múltiplo de n)

-Modelo o caminho do modelo após treinamento esparso

--SAVE O CAMINHO DE MODELO SALVADO Após a poda (o caminho foi dado por padrão e pode ser alterado de acordo com a situação real)

Poda normal (nin)

python normal_regular_prune.py --percent 0.5 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

Poda regular (NIN)

python normal_regular_prune.py --percent 0.5 --normal_regular 8 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

python normal_regular_prune.py --percent 0.5 --normal_regular 16 --model models_save/nin_sparse.pth --save models_save/nin_prune.pth

A poda de estrutura convolucional agrupada (nin_gc)

python gc_prune.py --percent 0.4 --model models_save/nin_gc_sparse.pth

Ajuste fino

--prune_refine O caminho do modelo após a poda (ajuste fino com base nele)

python main.py --model_type 0 --prune_refine models_save/nin_prune.pth

nin_gc

Você precisa passar no CFG do novo modelo obtido após a poda

como

python main.py --model_type 1 --gc_prune_refine 154 162 144 304 320 320 608 584

A poda -> quantificação (observe a taxa de poda e o equilíbrio da taxa de quantização)

Carregue o modelo de ponto flutuante podado e quantize -o

A poda -> quantificação (alto nível) (a taxa de poda é muito grande e a taxa de quantização é muito pequena)

W8A8 (Dorefa)

 cd micronet/compression/quantization/wqaq/dorefa

NIN (estrutura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth

Nin_GC (incluindo a estrutura convolucional do agrupamento)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth

W8A8 (IAO)

 cd micronet/compression/quantization/wqaq/iao

Qat/ptq -> qaft

! Observe que você precisa fazer qaft após qat/ptq!

Qat

BN não fusura

NIN (estrutura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --lr 0.001

Nin_GC (incluindo a estrutura convolucional do agrupamento)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --lr 0.001

BN Fusion

NIN (estrutura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --lr 0.001

Nin_GC (incluindo a estrutura convolucional do agrupamento)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_quant ../../../pruning/models_save/nin_gc_retrain.pth --bn_fuse --pretrained_model --lr 0.001

Ptq

NIN (estrutura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_quant ../../../pruning/models_save/nin_finetune.pth --bn_fuse --pretrained_model --ptq_control --ptq --batch_size 32 --ptq_batch 200 --percentile 0.999999

Outras analogias da situação

Qaft

! Observe que você precisa fazer qaft após qat/ptq!

Qat -> qaft

BN não fusura

NIN (estrutura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001

Nin_GC (incluindo a estrutura convolucional do agrupamento)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001

BN Fusion

NIN (estrutura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001

Nin_GC (incluindo a estrutura convolucional do agrupamento)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001

PTQ -> QAFT

BN não fusura

NIN (estrutura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin.pth --qaft --lr 0.00001 --ptq

Nin_GC (incluindo a estrutura convolucional do agrupamento)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc.pth --qaft --lr 0.00001 --ptq

BN Fusion

NIN (estrutura convolucional normal)

python main.py --w_bits 8 --a_bits 8 --model_type 0 --prune_qaft models_save/nin_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

Nin_GC (incluindo a estrutura convolucional do agrupamento)

python main.py --w_bits 8 --a_bits 8 --model_type 1 --prune_qaft models_save/nin_gc_bn_fused.pth --bn_fuse --qaft --lr 0.00001 --ptq

Outras analogias de configuração quantitativa opcional

A poda -> quantização (baixa) (a taxa de poda é pequena, a taxa de quantização é grande)

 cd micronet/compression/quantization/wbwtab

WBAB

NIN (estrutura convolucional normal)

python main.py --W 2 --A 2 --model_type 0 --prune_quant ../../pruning/models_save/nin_finetune.pth

Nin_GC (incluindo a estrutura convolucional do agrupamento)

python main.py --W 2 --A 2 --model_type 1 --prune_quant ../../pruning/models_save/nin_gc_retrain.pth

Outras analogias de obtenção de valor

BN Fusion e Teste Quantitativo de Simulação de Inferência

wbwtab

 cd micronet/compression/quantization/wbwtab/bn_fuse

bn_fuse (obtenha a estrutura e os parâmetros de quant_model_train e quant_bn_fused_model_inference)

- -Model_type, 1 -nin_gc (incluindo estrutura convolucional agrupada); 0 - NIN (estrutura convolucional normal)

--prune_quant, pruning_quantitative sinalizador

--W, valor de quantização de peso

Todos precisam ser consistentes com o treinamento quantitativo e você pode usar o padrão diretamente

nin_gc, quant_model, wb

python bn_fuse.py --model_type 1 --W 2

Nin_GC, PRUNE_QUANT_MODEL, WB

python bn_fuse.py --model_type 1 --prune_quant --W 2

nin_gc, quant_model, wt

python bn_fuse.py --model_type 1 --W 3

nin, quant_model, wb

python bn_fuse.py --model_type 0 --W 2

bn_fused_model_test (testes em quant_model_train e quant_bn_fused_model_inference)

python bn_fused_model_test.py

Dorefa

 cd micronet/compression/quantization/wqaq/dorefa/quant_model_test

quant_model_para (obtenha a estrutura e os parâmetros de quant_model_train e quant_model_inference)

- -Model_type, 1 -nin_gc (incluindo estrutura convolucional agrupada); 0 - NIN (estrutura convolucional normal)

--prune_quant, pruning_quantitative sinalizador

--w_bits, número de quantização de peso de bits; --a_bits, quantização de ativação Número de bits

Todos precisam ser consistentes com o treinamento quantitativo e você pode usar o padrão diretamente

nin_gc, quant_model, w8a8

python quant_model_para.py --model_type 1 --w_bits 8 --a_bits 8

Nin_GC, PRUNE_QUANT_MODEL, W8A8

python quant_model_para.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

nin, quant_model, w8a8

python quant_model_para.py --model_type 0 --w_bits 8 --a_bits 8

quant_model_test (testes quant_model_train e quant_model_inference)

python quant_model_test.py

IAO

Observe que quando o treinamento quantizado -bn_fuse precisa ser definido como true

 cd micronet/compression/quantization/wqaq/iao/bn_fuse

bn_fuse (obtenha a estrutura e os parâmetros de quant_bn_fused_model_train e quant_bn_fused_model_inference)

- -Model_type, 1 -nin_gc (incluindo estrutura convolucional agrupada); 0 - NIN (estrutura convolucional normal)

--prune_quant, pruning_quantitative sinalizador

--w_bits, número de quantização de peso de bits; --a_bits, quantização de ativação Número de bits

--q_type, 0 -simétrico; 1 - assimétrico

--q_level, 0 -nível de canal; 1 - nível

Todos precisam ser consistentes com o treinamento quantitativo e você pode usar o padrão diretamente

nin_gc, quant_model, w8a8

python bn_fuse.py --model_type 1 --w_bits 8 --a_bits 8

Nin_GC, PRUNE_QUANT_MODEL, W8A8

python bn_fuse.py --model_type 1 --prune_quant --w_bits 8 --a_bits 8

nin, quant_model, w8a8

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8

nin_gc, quant_model, w8a8, assimetria, hierarquia

python bn_fuse.py --model_type 0 --w_bits 8 --a_bits 8 --q_type 1 --q_level 1

bn_fused_model_test (testes em quant_bn_fused_model_train e quant_bn_fused_model_inference)

python bn_fused_model_test.py

Seleção de equipamentos

Agora suporta CPU e GPU (cartão único, cartão múltiplo)

-CPU Use CPU,--GPU_ID Use e selecione GPU

python main.py --cpu

Cartão único da GPU

python main.py --gpu_id 0

python main.py --gpu_id 1

GPU multicard

python main.py --gpu_id 0,1

python main.py --gpu_id 0,1,2

Por padrão, use o cartão completo do servidor

implantar

Tensorrt

Atualmente, apenas o código do módulo principal relevante é fornecido e uma demonstração completa do Runnable será adicionada posteriormente.

Interpretações relacionadas

Tensorrt-Basics
tensorrt-op/dynamic_shape

migrar

Treinamento quantitativo

Exemplo de LENET

quant_test_manual.py

Um modelo pode ser quantizado (alto bit (> 2b), baixo bit (≤2b)/ternário e binário) simplesmente substituindo OP pelo quant_OP .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

# ``quantize`` is quant_module, ``QuantConv2d``, ``QuantLinear``, ``QuantMaxPool2d``, ``QuantReLU`` are quant_op
from micronet . compression . quantization . wbwtab . quantize import (
    QuantConv2d as quant_conv_wbwtab ,
)
from micronet . compression . quantization . wbwtab . quantize import (
    ActivationQuantizer as quant_relu_wbwtab ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantConv2d as quant_conv_dorefa ,
)
from micronet . compression . quantization . wqaq . dorefa . quantize import (
    QuantLinear as quant_linear_dorefa ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantConv2d as quant_conv_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantLinear as quant_linear_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantMaxPool2d as quant_max_pool_iao ,
)
from micronet . compression . quantization . wqaq . iao . quantize import (
    QuantReLU as quant_relu_iao ,
)


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetWbWtAb ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetWbWtAb , self ). __init__ ()
        self . conv1 = quant_conv_wbwtab ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_wbwtab ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = quant_relu_wbwtab ()

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetDoReFa ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetDoReFa , self ). __init__ ()
        self . conv1 = quant_conv_dorefa ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_dorefa ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_dorefa ( 320 , 50 )
        self . fc2 = quant_linear_dorefa ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


class QuantLeNetIAO ( nn . Module ):
    def __init__ ( self ):
        super ( QuantLeNetIAO , self ). __init__ ()
        self . conv1 = quant_conv_iao ( 1 , 10 , kernel_size = 5 )
        self . conv2 = quant_conv_iao ( 10 , 20 , kernel_size = 5 )
        self . fc1 = quant_linear_iao ( 320 , 50 )
        self . fc2 = quant_linear_iao ( 50 , 10 )
        self . max_pool = quant_max_pool_iao ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


lenet = LeNet ()
quant_lenet_wbwtab = QuantLeNetWbWtAb ()
quant_lenet_dorefa = QuantLeNetDoReFa ()
quant_lenet_iao = QuantLeNetIAO ()

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_wbwtab*** n " , quant_lenet_wbwtab )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

quant_test_auto.py

Um modelo pode ser quantizado (alto bit (> 2b), baixo bit (≤2b)/ternário e binário) simplesmente usando o micronet.compression.quantization.quantize.prepare (modelo) .

 import torch . nn as nn
import torch . nn . functional as F

# some base_op, such as ``Add``、``Concat``
from micronet . base_module . op import *

import micronet . compression . quantization . wqaq . dorefa . quantize as quant_dorefa
import micronet . compression . quantization . wqaq . iao . quantize as quant_iao


class LeNet ( nn . Module ):
    def __init__ ( self ):
        super ( LeNet , self ). __init__ ()
        self . conv1 = nn . Conv2d ( 1 , 10 , kernel_size = 5 )
        self . conv2 = nn . Conv2d ( 10 , 20 , kernel_size = 5 )
        self . fc1 = nn . Linear ( 320 , 50 )
        self . fc2 = nn . Linear ( 50 , 10 )
        self . max_pool = nn . MaxPool2d ( kernel_size = 2 )
        self . relu = nn . ReLU ( inplace = True )

    def forward ( self , x ):
        x = self . relu ( self . max_pool ( self . conv1 ( x )))
        x = self . relu ( self . max_pool ( self . conv2 ( x )))
        x = x . view ( - 1 , 320 )
        x = self . relu ( self . fc1 ( x ))
        x = F . dropout ( x , training = self . training )
        x = self . fc2 ( x )
        return F . log_softmax ( x , dim = 1 )


"""
--w_bits --a_bits, 权重W和特征A量化位数
--q_type, 量化类型(0-对称, 1-非对称)
--q_level, 权重量化级别(0-通道级, 1-层级)
--weight_observer, weight_observer选择(0-MinMaxObserver, 1-MovingAverageMinMaxObserver)
--bn_fuse, 量化中bn融合标志
--bn_fuse_calib, 量化中bn融合校准标志
--pretrained_model, 预训练浮点模型
--qaft, qaft标志
--ptq, ptq标志
--percentile, ptq校准的比例
"""
lenet = LeNet ()
quant_lenet_dorefa = quant_dorefa . prepare ( lenet , inplace = False , a_bits = 8 , w_bits = 8 )
quant_lenet_iao = quant_iao . prepare (
    lenet ,
    inplace = False ,
    a_bits = 8 ,
    w_bits = 8 ,
    q_type = 0 ,
    q_level = 0 ,
    weight_observer = 0 ,
    bn_fuse = False ,
    bn_fuse_calib = False ,
    pretrained_model = False ,
    qaft = False ,
    ptq = False ,
    percentile = 0.9999 ,
)

# if ptq == False, do qat/qaft, need train
# if ptq == True, do ptq, don't need train
# you can refer to micronet/compression/quantization/wqaq/iao/main.py

print ( "***ori_model*** n " , lenet )
print ( " n ***quant_model_dorefa*** n " , quant_lenet_dorefa )
print ( " n ***quant_model_iao*** n " , quant_lenet_iao )

print ( " n quant_model is ready" )
print ( "micronet is ready" )

teste

quant_test_manual

python -c " import micronet; micronet.quant_test_manual() "

quant_test_auto

python -c " import micronet; micronet.quant_test_auto() "

Ao produzir "quant_model está pronto", o microt está pronto.

Raciocínio quantitativo

Referência BN Fusion e Teste Quantitativo de Simulação de Inferência

Comparação de dados compactados do modelo (somente para referência)

A seguir, é apresentado um exemplo do CIFAR10, onde você pode tentar outros métodos combinados de compressão em modelos mais redundantes e conjuntos de dados maiores.

tipo	W (bits)	A (bits)	Acc	GFLOPS	Para (M)	Tamanho (MB)	Taxa de compressão	perda
Modelo original (NIN)	Fp32	Fp32	91,01%	0,15	0,67	2.68	***	***
Usando a estrutura de convolução de agrupamento (Nin_GC)	Fp32	Fp32	91,04%	0,15	0,58	2.32	13,43%	-0,03%
Podando	Fp32	Fp32	90,26%	0,09	0,32	1.28	52,24%	0,75%
Quantificação	1	Fp32	90,93%	***	0,58	0,204	92,39%	0,08%
Quantificação	1.5	Fp32	91%	***	0,58	0,272	89,85%	0,01%
Quantificação	1	1	86,23%	***	0,58	0,204	92,39%	4,78%
Quantificação	1.5	1	86,48%	***	0,58	0,272	89,85%	4,53%
Quantificação (Dorefa)	8	8	91,03%	***	0,58	0,596	77,76%	-0,02%
Quantificação (IAO, quantificação total, simétrica/por canal/bn_fuse)	8	8	90,99%	***	0,58	0,596	77,76%	0,02%
Agrupamento + podaing + quantização	1.5	1	86,13%	***	0,32	0,19	92,91%	4,88%

--train_batch_size 256, cartão único

Informações relacionadas

compressão

Quantificação

Qat

Valor binário

BinarizedneuralNetworks: TreiningNeuralNetworks WithweightSands e ativações, para +1 ou -1
XNOR-NET: ImageNetClassi ﬁ cusingbinary ConvolucionalNeuralNetworks
Um estudo empírico da otimização das redes neurais binárias
Uma revisão de redes neurais binarizadas

Três valores

Redes de peso ternário

Alto bit

Dorefa-Net: Treinando redes neurais convolucionais com baixa largura de bits com gradientes de baixa largura de bits
Quantização e treinamento de redes neurais para inferência eficiente-aritmética apenas
Quantizando redes convolucionais profundas para inferência eficiente: um whitepaper