PyTorchTricks下載PyTorchTricks源代碼下載

PyTorchTricks

Python

1.0.0

下載

Some Tricks of PyTorch

changelog

2019 年11 月29 日: 更新一些模型設計技巧和推理加速的內容, 補充了下apex 的一個介紹鏈接,~~另外刪了tfrecord, pytorch 能用麼? 這個我記得是不能, 所以刪掉了~~(表示刪掉:<)
2019 年11 月30 日: 補充MAC 的含義, 補充ShuffleNetV2 的論文鏈接
2019 年12 月02 日: 之前說的pytorch 不能用tfrecord, 今天看到https://www.zhihu.com/question/358632497下的一個回答, 漲姿勢了
2019 年12 月23 日: 補充幾篇關於模型壓縮量化的科普性文章
2020 年2 月7 日: 從文章中摘錄了一點注意事項, 補充在了代碼層面小節
2020 年4 月30 日:
- 添加了一個github 的文檔備份
- 補充了卷積層和BN 層融合的介紹的鏈接
- 另外這裡說明下, 對於之前參考的很多朋友的文章和回答, 沒有把鏈接和對應的內容提要關聯在一起, 估計會導致一些朋友閱讀時相關的內容時的提問, 無法問到原作者, 這裡深感抱歉.
- 調整部分內容, 將內容盡量與參考鏈接相對應
2020 年5 月18 日: 補充一些關於PyTorch 節省顯存的技巧. 同時簡單調整格式. 另外發現一個之前的錯誤: non_blocking=False的建議應該是non_blocking=True .
2021 年01 月06 日：調整下關於讀取圖片數據的一些介紹.
2021 年01 月13 日：補充了一條推理加速的策略. 我覺得我應該先更新github 的文檔，知乎答案的更新有點麻煩，也沒法比較更改信息，就很費勁。
2022 年6 月26 日：重新調整了下格式和內容安排，同時補充了更多的參考資料和一些最新發現的有效內容。
2024 年6 月20 日：簡單調整格式，補充了基於tar格式和IterableDataset的一種加速數據讀取的思路。

PyTorch 提速

Note

原始文檔:https://www.yuque.com/lart/ugkv9f/ugysgn

聲明: 大部分內容來自知乎和其他博客的分享, 這裡只作為一個收集羅列. 歡迎給出更多建議.

知乎回答(歡迎點贊哦):

pytorch dataloader 數據加載佔用了大部分時間, 各位大佬都是怎麼解決的? - 人民藝術家的回答- 知乎
使用pytorch 時, 訓練集數據太多達到上千萬張, Dataloader 加載很慢怎麼辦? - 人民藝術家的回答- 知乎

預處理提速

盡量減少每次讀取數據時的預處理操作, 可以考慮把一些固定的操作, 例如resize , 事先處理好保存下來, 訓練的時候直接拿來用。
將預處理搬到GPU 上加速。
- Linux 可以使用NVIDIA/DALI 。
- 使用基於Tensor 的圖像處理操作。

IO 提速

mmcv 對數據的讀取提供了比較高效且全面的支持：OpenMMLab：MMCV 核心組件分析(三): FileClient

使用更快的圖片處理

opencv一般要比PIL要快。
- 請注意， PIL的惰性加載的策略使得其看上去open要比opencv的imread要快，但是實際上那並沒有完全加載數據。可以對open返回的對象調用其load()方法，從而手動加載數據，這時的速度才是合理的。
對於jpeg讀取, 可以嘗試jpeg4py 。
存bmp圖(降低解碼時間)。
關於不同圖像處理庫速度的討論：Python 的各種imread 函數在實現方式和讀取速度上有何區別？ - 知乎

整合數據為單個連續文件(降低讀取次數)

對於大規模的小文件讀取，可以保存為一個可以連續讀取的連續文件格式。可以選擇考慮TFRecord (Tensorflow) , recordIO , hdf5 , pth , n5 , lmdb等。

TFRecord ：https://github.com/vahidk/tfrecord
lmdb數據庫：
- https://github.com/Fangyh09/Image2LMDB
- https://blog.csdn.net/P_LarT/article/details/103208405
- https://github.com/lartpang/PySODToolBox/blob/master/ForBigDataset/ImageFolder2LMDB.py
基於Tar文件和IterableDataset的實現

預讀取數據

預讀取下一次迭代需要的數據。使用案例：

如何給你PyTorch 裡的Dataloader 打雞血- MKFMIKU 的文章- 知乎
給pytorch 讀取數據加速- 體hi 的文章- 知乎

借助內存

直接載到內存裡面。
- 將圖片讀取後存到一個固定的容器對像中。
  - YoloV5 中的--cache 。
把內存映射成磁盤。

借助固態

機械硬盤換成NVME 固態。參考自如何給你PyTorch 裡的Dataloader 打雞血- MKFMIKU 的文章- 知乎

訓練策略

低精度訓練

在訓練中使用低精度( FP16甚至INT8 、二值網絡、三值網絡) 表示取代原有精度( FP32 ) 表示。

可以節約一定的顯存並提速, 但是要小心一些不安全的操作如mean 和sum。

混合精度訓練的介紹文章：
- 由淺入深的混合精度訓練教程
NVIDIA/Apex提供的混合精度支持。
- PyTorch 必備神器| 唯快不破：基於Apex 的混合精度加速
- Pytorch 安裝APEX 疑難雜症解決方案- 陳瀚可的文章- 知乎
PyTorch1.6 開始提供的torch.cuda.amp以支持混合精度。

更大的batch

更大的batch 在固定的epoch 的情況下往往會帶來更短的訓練時間。但是大的batch 面臨著超參數的設置、顯存佔用問題等諸多考量，這又是另一個備受關注的領域了。

超參數設置
- Accurate, large minibatch SGD: training imagenet in 1 hour，論文
優化顯存佔用
- Gradient Accumulation
- Gradient Checkpointing
  - Training deep nets with sublinear memory cost，論文
- In-Place Operation
  - In-Place Activated BatchNorm for Memory-Optimized Training of DNNs，論文，代碼

代碼層面

庫設置

在訓練循環之前設置torch.backends.cudnn.benchmark = True可以加速計算。由於計算不同內核大小卷積的cuDNN 算法的性能不同，自動調優器可以運行一個基準來找到最佳算法。當你的輸入大小不經常改變時，建議開啟這個設置。如果輸入大小經常改變，那麼自動調優器就需要太頻繁地進行基準測試，這可能會損害性能。它可以將向前和向後傳播速度提高1.27x 到1.70x。
使用頁面鎖定內存，即在DataLoader 中設定pin_memory=True 。
合適的num_worker ，細節討論可見Pytorch 提速指南- 雲夢的文章- 知乎。
optimizer.zero_grad(set_to_none=False 這裡可以通過設置set_to_none=True來降低的內存佔用，並且可以適度提高性能。但是這也會改變某些行為，具體可見文檔。通過model.zero_grad()或optimizer.zero_grad()將對所有參數執行memset ，並通過讀寫操作更新梯度。但是，將梯度設置為None將不會執行memset ，並且將使用“只寫”操作更新梯度。因此，設置梯度為None更快。
反向傳播期間設定使用eval模式並使用torch.no_grad關閉梯度計算。
可以考慮使用channels_last 的內存格式。
用DistributedDataParallel代替DataParallel 。對於多GPU 來說，即使只有單個節點，也總是優先使用DistributedDataParallel而不是DataParallel ，因為DistributedDataParallel應用於多進程，並為每個GPU 創建一個進程，從而繞過Python 全局解釋器鎖(GIL) 並提高速度。

模型

不要初始化任何用不到的變量，因為PyTorch 的初始化和forward是分開的，他不會因為你不去使用，而不去初始化。
@torch.jit.script ，使用PyTroch JIT 將逐點運算融合到單個CUDA kernel 上。 PyTorch 優化了維度很大的張量的運算操作。在PyTorch 中對小張量進行太多的運算操作是非常低效的。所以有可能的話，將計算操作都重寫為批次（batch）的形式，可以減少消耗和提高性能。而如果沒辦法自己手動實現批次的運算操作，那麼可以採用TorchScript 來提升代碼的性能。 TorchScript 是一個Python 函數的子集，但經過了PyTorch 的驗證，PyTorch 可以通過其just in time(jtt) 編譯器來自動優化TorchScript 代碼，提高性能。但更好的做法還是手動實現批次的運算操作。
在使用混合精度的FP16 時，對於所有不同架構設計，設置尺寸為8 的倍數。
BN 之前的捲積層可以去掉bias。因為在數學上，bias 可以通過BN 的均值減法來抵消。我們可以節省模型參數、運行時的內存。

數據

將batch size 設置為8 的倍數，最大化GPU 內存的使用。
GPU 上盡可能執行NumPy 風格的操作。
使用del釋放內存佔用。
避免不同設備之間不必要的數據傳輸。
創建張量的時候，直接指定設備，而不要創建後再傳輸到目標設備上。
使用torch.from_numpy(ndarray)或者torch.as_tensor(data, dtype=None, device=None) ，這可以通過共享內存而避免重新申請空間，具體使用細節和注意事項可參考對應文檔。如果源設備和目標設備都是CPU， torch.from_numpy和torch.as_tensor不會拷貝數據。如果源數據是NumPy 數組，使用torch.from_numpy更快。如果源數據是一個具有相同數據類型和設備類型的張量，那麼torch.as_tensor可以避免拷貝數據，這裡的數據可以是Python 的list， tuple，或者張量。
使用非阻塞傳輸，即設定non_blocking=True 。這會在可能的情況下嘗試異步轉換，例如，將頁面鎖定內存中的CPU 張量轉換為CUDA 張量。

對優化器的優化

將模型參數存放到一塊連續的內存中，從而減少optimizer.step()的時間。
- contiguous_pytorch_params
使用APEX 中的fused building blocks

模型設計

CNN

ShuffleNetV2，論文。
- 卷積層輸入輸出通道一致: 卷積層的輸入和輸出特徵通道數相等時MAC（ memory access cost , memory access cost縮寫為MAC ）最小, 此時模型速度最快
- 減少卷積分組: 過多的group 操作會增大MAC, 從而使模型速度變慢
- 減少模型分支: 模型中的分支數量越少, 模型速度越快
- 減少element-wise操作: element-wise操作所帶來的時間消耗遠比在FLOPs 上的體現的數值要多, 因此要盡可能減少element-wise操作。 depthwise convolution也具有低FLOPs 、高MAC 的特點。

Vision Transformer

TRT-ViT: TensorRT-oriented Vision Transformer，論文，解讀。
- stage-level：Transformer block 適合放置到模型的後期，這可以最大化效率和性能的權衡。
- stage-level：先淺後深的stage 設計模式可以提升性能。
- block-level：Transformer 和BottleNeck 的混合block 要比單獨的Transformer 更有效。
- block-level：先全局再局部的block 設計模式有助於彌補性能問題。

通用思路

降低複雜度: 例如模型裁剪和剪枝, 減少模型層數和參數規模
改模型結構: 例如模型蒸餾, 通過知識蒸餾方法來獲取小模型

推理加速

半精度與權重量化

在推理中使用低精度( FP16甚至INT8 、二值網絡、三值網絡) 表示取代原有精度( FP32 ) 表示。

TensorRT是NVIDIA 提出的神經網絡推理(Inference) 引擎, 支持訓練後8BIT 量化, 它使用基於交叉熵的模型量化算法, 通過最小化兩個分佈的差異程度來實現
Pytorch1.3 開始已經支持量化功能, 基於QNNPACK 實現, 支持訓練後量化, 動態量化和量化感知訓練等技術
另外Distiller是Intel 基於Pytorch 開源的模型優化工具, 自然也支持Pytorch 中的量化技術
微軟的NNI集成了多種量化感知的訓練算法, 並支持PyTorch/TensorFlow/MXNet/Caffe2等多個開源框架

更多細節可參考有三AI:【雜談】當前模型量化有哪些可用的開源工具?。

操作融合

模型推理加速技巧：融合BN 和Conv 層- 小小將的文章- 知乎
網絡inference 階段conv 層和BN 層的融合- autocyz 的文章- 知乎
PyTorch 本身提供了類似的功能

重參數化（Re-Parameterization）

RepVGG
- RepVGG|讓你的ConVNet 一捲到底，plain 網絡首次超過80%top1 精度

時間分析

Python 自帶了幾個性能分析的模塊profile , cProfile和hotshot , 使用方法基本都差不多, 無非模塊是純Python 還是用C 寫的。
PyTorch Profiler 是一種工具，可在訓練和推理過程中收集性能指標。 Profiler 的上下文管理器API 可用於更好地了解哪種模型算子成本最高，檢查其輸入形狀和堆棧記錄，研究設備內核活動並可視化執行記錄。

項目推薦

基於Pytorch 實現模型壓縮:
- 量化:8/4/2 bits(dorefa)、三值/二值(twn/bnn/xnor-net)。
- 剪枝: 正常、規整、針對分組卷積結構的通道剪枝。
- 分組卷積結構。
- 針對特徵二值量化的BN 融合。

擴展閱讀

pytorch dataloader 數據加載佔用了大部分時間, 各位大佬都是怎麼解決的? - 知乎
使用pytorch 時, 訓練集數據太多達到上千萬張, Dataloader 加載很慢怎麼辦? - 知乎
PyTorch 有哪些坑/bug? - 知乎
Optimizing PyTorch training code
26 秒單GPU 訓練CIFAR10, Jeff Dean 也點讚的深度學習優化技巧- 機器之心的文章- 知乎
線上模型加入幾個新特徵訓練後上線, tensorflow serving 預測時間為什麼比原來慢20 多倍? - TzeSing 的回答- 知乎
深度學習模型壓縮
今天, 你的模型加速了嗎? 這裡有5 個方法供你參考(附代碼解析)
pytorch 常見的坑匯總- 鬱振波的文章- 知乎
Pytorch 提速指南- 雲夢的文章- 知乎
優化PyTorch 的速度和內存效率（2022）

PyTorch 節省顯存

原始文檔:https://www.yuque.com/lart/ugkv9f/nvffyf
整理自: Pytorch 有什麼節省內存(顯存) 的小技巧? - 知乎https://www.zhihu.com/question/274635237

使用In-Place 操作

對於默認支持inplace的操作盡量啟用。比如relu可以使用inplace=True 。
可以將batchnorm和一些特定的激活函數打包成inplace_abn 。

損失函數

每次循環結束時刪除loss, 可以節約很少顯存, 但聊勝於無。可見Tensor to Variable and memory freeing best practices

混合精度

可以節約一定的顯存並提速, 但是要小心一些不安全的操作如mean 和sum。

混合精度訓練的介紹文章：
- 由淺入深的混合精度訓練教程
NVIDIA/Apex提供的混合精度支持。
- PyTorch 必備神器| 唯快不破：基於Apex 的混合精度加速
- Pytorch 安裝APEX 疑難雜症解決方案- 陳瀚可的文章- 知乎
PyTorch1.6 開始提供的torch.cuda.amp以支持混合精度。

管理不需要反向傳播的操作

對於不需要反向傳播的前向階段，如驗證和推理期間，使用torch.no_grad來包裹代碼。
- 注意model.eval()不等於torch.no_grad() , 請看如下討論: ' model.eval() ' vs 'with torch.no_grad() '
將不需要計算梯度的變量的requires_grad設為False , 讓變量不參與梯度的後向傳播，以減少不必要的梯度的顯存佔用。
移除不需要計算的梯度路徑：
- Stochastic Backpropagation: A Memory Efficient Strategy for Training Video Models，解讀可見：
  - https://www.yuque.com/lart/papers/xu5t00
  - https://blog.csdn.net/P_LarT/article/details/124978961

顯存清理

torch.cuda.empty_cache()這是del的進階版, 使用nvidia-smi會發現顯存有明顯的變化. 但是訓練時最大的顯存佔用似乎沒變. 大家可以試試: How can we release GPU memory cache?
可以使用del刪除不必要的中間變量, 或者使用replacing variables的形式來減少佔用.

梯度累加（Gradient Accumulation）

把一個batchsize=64分為兩個32 的batch，兩次forward 以後，backward 一次。但會影響batchnorm等和batchsize相關的層。

在PyTorch 的文檔中提到了梯度累加與混合精度並用的例子。

使用梯度累加技術可以對分佈式訓練加速，這可以參考：[原創][深度][PyTorch] DDP 系列第三篇：實戰與技巧- 996 黃金一代的文章- 知乎

梯度檢查點（Gradient Checkpointing）

PyTorch 中提供了torch.utils.checkpoint 。這是通過在反向傳播期間，在每個檢查點位置重新執行一次前向傳播來實現的。

論文Training Deep Nets with Sublinear Memory Cost 基於梯度檢查點技術，將顯存從O(N) 降到了O(sqrt(N))。對於越深的模型, 這個方法省的顯存就越多, 且速度不會明顯變慢。

PyTorch 之Checkpoint 機制解析
torch.utils.checkpoint 簡介和簡易使用
Sublinear Memory Cost 的一份PyTorch 實現，參考自：Pytorch 有什麼節省內存(顯存)的小技巧? - Lyken 的回答- 知乎

參考資料

Pytorch 有什麼節省內存(顯存)的小技巧? - 鄭哲東的回答- 知乎
淺談深度學習: 如何計算模型以及中間變量的顯存佔用大小
如何在Pytorch 中精細化利用顯存
Pytorch 有什麼節省顯存的小技巧? - 陳瀚可的回答- 知乎
PyTorch 顯存機制分析- Connolly 的文章- 知乎

其他技巧

重現

可關注文檔中相關章節。

強制確定性操作

避免使用非確定性算法。

PyTorch 中， torch.use_deterministic_algorithms()可以強制使用確定性算法而不是非確定性算法，並且如果已知操作是非確定性的（並且沒有確定性的替代方案），則會拋出錯誤。

設置隨機數種子

 def seed_torch ( seed = 1029 ):
    random . seed ( seed )
    os . environ [ 'PYTHONHASHSEED' ] = str ( seed )
    np . random . seed ( seed )
    torch . manual_seed ( seed )
    torch . cuda . manual_seed ( seed )
    torch . cuda . manual_seed_all ( seed ) # if you are using multi-GPU.
    torch . backends . cudnn . benchmark = False
    torch . backends . cudnn . deterministic = True

seed_torch ()

參考自https://www.zdaiot.com/MLFrameworks/Pytorch/Pytorch%E9%9A%8F%E6%9C%BA%E7%A7%8D%E5%AD%90/

PyTorch 1.9 版本前DataLoader 中的隱藏BUG

具體細節可見可能95%的人還在犯的PyTorch 錯誤- serendipity 的文章- 知乎

解決方法可參考文檔：

 def seed_worker ( worker_id ):
    worker_seed = torch . initial_seed () % 2 ** 32
    numpy . random . seed ( worker_seed )
    random . seed ( worker_seed )

DataLoader (..., worker_init_fn = seed_worker )