optimum quanto下載 - optimum quanto源代碼下載

optimum quanto

Python

release: 0.2.6

下載

最佳量子

？最佳量子是最佳的pytorch量化後端。

它的設計具有多功能性和簡單性：

所有功能均以急切的模式可用（可與不可追踪的型號一起使用），
可以將量化模型放在任何設備（包括CUDA和MP）上，
自動插入量化和去量化存根，
自動插入量化的功能操作，
自動插入量化的模塊（請參見下面的支持模塊列表），
提供從浮點模型到動態到靜態量化模型的無縫工作流程，
序列化與pytorch weight_only和？ safetensors ，
CUDA設備上的加速矩陣乘法（INT8-INT8，FP16-INT4，BF16-INT8，BF16-INT4），BF16-INT4），
支持INT2，INT4，INT8和FLOAT8權重，
支持INT8和FLOAT8激活。

功能尚未實現：

動態激活平滑，
所有混合矩陣乘法在所有設備上的內核，
與火炬編譯器（又稱發電機）的兼容性。

表演

簡而言之：

精度：用int8 / float8權重和float8激活編輯的型號非常接近Full Percision型號，
延遲：每當有優化的內核可用時，量化模型的推斷就可以與全精度模型相媲美，僅量化模型權重，
設備內存：大約除以浮點鑽頭 /整數位。

下面的段落只是一個例子。請參閱bench文件夾，以獲取每個模型用例詳細結果。

meta-llama/meta-llama-3.1-8b

安裝

最佳量化可作為PIP包裝。

pip install optimum-quanto

擁抱面部模型的量化工作流程

optimum-quanto提供了輔助類，以量化，保存和重新加載擁抱面部量化模型。

LLM型號

第一步是量化模型

 from transformers import AutoModelForCausalLM
from optimum . quanto import QuantizedModelForCausalLM , qint4

model = AutoModelForCausalLM . from_pretrained ( 'meta-llama/Meta-Llama-3-8B' )
qmodel = QuantizedModelForCausalLM . quantize ( model , weights = qint4 , exclude = 'lm_head' )

注意：該模型量化權重將被冷凍。如果您想讓它們未能訓練以訓練它們，則需要使用optimum.quanto.quantize 。直接量化。

可以使用save_pretrained保存量化的模型：

 qmodel . save_pretrained ( './Llama-3-8B-quantized' )

以後可以使用from_pretrained重新加載：

 from optimum . quanto import QuantizedModelForCausalLM

qmodel = QuantizedModelForCausalLM . from_pretrained ( 'Llama-3-8B-quantized' )

擴散器模型

您可以量化擴散器管道中的任何子模型，然後在另一個管道中無縫包含它們。

在這裡，我們量化了Pixart管道的transformer 。

 from diffusers import PixArtTransformer2DModel
from optimum . quanto import QuantizedPixArtTransformer2DModel , qfloat8

model = PixArtTransformer2DModel . from_pretrained ( "PixArt-alpha/PixArt-Sigma-XL-2-1024-MS" , subfolder = "transformer" )
qmodel = QuantizedPixArtTransformer2DModel . quantize ( model , weights = qfloat8 )
qmodel . save_pretrained ( "./pixart-sigma-fp8" )

後來，我們可以重新加載量化的模型並重新創建管道：

 from diffusers import PixArtTransformer2DModel
from optimum . quanto import QuantizedPixArtTransformer2DModel

transformer = QuantizedPixArtTransformer2DModel . from_pretrained ( "./pixart-sigma-fp8" )
transformer . to ( device = "cuda" )
pipe = PixArtSigmaPipeline . from_pretrained (
  "PixArt-alpha/PixArt-Sigma-XL-2-1024-MS" ,
  transformer = None ,
  torch_dtype = torch . float16 ,
). to ( "cuda" )
pipe . transformer = transformer

Vanilla Pytorch型號（低級API）的量化工作流程

使用低級量子API時要記住的一件事是，默認模型權重是動態量化的：必須進行明確的調用以“凍結”量化的權重。

典型的量化工作流將包括以下步驟：

1。量化

第一步將標準浮點模型轉換為動態量化的模型。

 from optimum . quanto import quantize , qint8

quantize ( model , weights = qint8 , activations = qint8 )

在此階段，僅修改模型的推斷以動態量化權重。

2。校準（如果未量化激活，可選）

Quanto支持校準模式，該模式允許在通過量化模型傳遞代表樣品的同時記錄激活範圍。

 from optimum . quanto import Calibration

with Calibration ( momentum = 0.9 ):
    model ( samples )

這會自動激活量化模塊中激活的量化。

3。曲調，又稱量化訓練（可選）

如果模型的性能過多，則可以將其調整為一些時代以恢復浮點模型性能。

 import torch

model . train ()
for batch_idx , ( data , target ) in enumerate ( train_loader ):
    data , target = data . to ( device ), target . to ( device )
    optimizer . zero_grad ()
    output = model ( data ). dequantize ()
    loss = torch . nn . functional . nll_loss ( output , target )
    loss . backward ()
    optimizer . step ()

4。凍結整數重量

冷凍模型時，其浮子重量將被量化的整數重量所取代。

 from optimum . quanto import freeze

freeze ( model )

5。序列化量化模型

量化的模型權重可以序列化為state_dict ，並保存到文件中。支持pickle和safetensors （推薦）。

 from safetensors . torch import save_file

save_file ( model . state_dict (), 'model.safetensors' )

為了能夠重新加載這些權重，您還需要存儲量化的模型量化圖。

 import json

from optimum . quanto import quantization_map

with open ( 'quantization_map.json' , 'w' ) as f :
  json . dump ( quantization_map ( model ), f )

5。重新加載量化的模型

可以使用requantize助手從state_dict和quantization_map map重新加載序列化的量化模型。請注意，您需要首先實例化空模型。

 import json

from safetensors . torch import load_file
from optimum . quanto import requantize

state_dict = load_file ( 'model.safetensors' )
with open ( 'quantization_map.json' , 'r' ) as f :
  quantization_map = json . load ( f )

# Create an empty model from your modeling code and requantize it
with torch . device ( 'meta' ):
  new_model = ...
requantize ( new_model , state_dict , quantization_map , device = torch . device ( 'cuda' ))