PyTorchTricksダウンロードPyTorchTricksソースコードのダウンロード

PyTorchTricks

パイソン

1.0.0

ダウンロード

Pytorchのいくつかのトリック

Changelog

2019年11月29日：いくつかのモデル設計技術と推論の加速コンテンツを更新し、頂点への紹介リンクを追加しました、~~また、Trecordを削除しましたが、Pytorchを使用できますか？できないことを覚えているので、削除しました~~（削除を示します：<）
2019年11月30日：補足Macの意味、補足Shufflenetv2の紙リンク
2019年12月2日：私が前に述べたPytorchはTrecordを使用できません。今日、私はhttps://www.zhihu.com/question/358632497から答えを見ました。
2019年12月23日：モデル圧縮定量化に関するいくつかの人気のある科学記事を追加しました
2020年2月7日：記事から抜粋し、コードレベルのセクションに追加されたいくつかのことがあります
2020年4月30日：
- GitHubのドキュメントバックアップを追加しました
- 畳み込み層とBN層の融合の導入へのリンクを補完するリンク
- これが別の説明です。私が以前に参照した多くの友人の記事と回答については、リンクと対応するコンテンツの概要はリンクされていません。一部の友人は、関連するコンテンツを読むときに質問をすると推定されており、元の著者に尋ねることはできません。ここで深く申し訳ありません。
- いくつかのコンテンツを調整して、参照リンクに対応してみてください
2020年5月18日：ビデオメモリを保存するために、Pytorchにいくつかのヒントを追加します。同時に、形式を調整するだけです。また、以前のエラーを見つけました： non_blocking=Falseの提案はnon_blocking=Trueでなければなりません。
2021年1月6日：画像データの読み取りに関するいくつかの紹介を調整します。
2021年1月13日：加速された推論の戦略を追加しました。最初にGitHubドキュメントを更新する必要があると思います。 Zhihu Answersの更新は少し面倒であり、情報の変更を比較することは不可能であるため、非常に困難です。
2022年6月26日：次の形式とコンテンツの配置が再調整されましたが、追加の参照と最新の発見の一部が追加されました。
2024年6月20日：形式の簡単な調整には、 tar形式とIterableDatasetに基づいてデータ読み取りを加速するというアイデアが補完されています。

Pytorchスピードアップ

注記

元のドキュメント：https：//www.yuque.com/lart/ugkv9f/ugysgn

ステートメント：コンテンツのほとんどは、Zhihuや他のブログで共有することから来ており、ここにはコレクションとしてのみリストされています。もっと提案は大歓迎です。

Zhihuの回答（いいねへようこそ）：

Pytorch Dataloaderデータの読み込みは、ほとんどの場合になります。どうやって解決しますか？ - 人々のアーティストの答え-Zhihu
Pytorchを使用する場合、数千万人に到達するにはトレーニングセットデータが多すぎます。DataloAderが非常にゆっくりとロードされた場合はどうすればよいですか？ - 人々のアーティストの答え-Zhihu

前処理が高速になります

データを読むたびに前処理操作を最小限に抑えるために、 resizeなどの固定操作を使用して事前に保存し、トレーニング中に直接使用することを検討できます。
前処理をGPUに移動して加速します。
- LinuxはNVIDIA/DALIを使用できます。
- テンソルベースの画像処理操作を使用します。

ioスピードアップ

MMCVは、データの比較的効率的かつ包括的なサポートを提供しています読み取り：openmmlab：mmcvコアコンポーネント分析（iii）：fileclient

より高速な画像処理を使用します

opencv一般にPILよりも高速です。
- PILの怠zyなロード戦略により、 opencvのimreadよりもopen見えるようになりますが、実際にはデータを完全にロードしないことに注意してください。オブジェクトで返されたオブジェクトのload()メソッドを、 openでロードデータに呼び出すことができます。現時点では速度が妥当です。
jpeg読み取りについては、 jpeg4pyを試すことができます。
bmpグラフを保存します（デコード時間を短縮します）。
さまざまな画像処理ライブラリの速度に関する議論：PythonのさまざまなIMREAD関数の実装方法と読み取り速度の違いは何ですか？ -Zhihu

データを単一の連続ファイルに統合します（読み取り数を減らす）

大規模な小さなファイルの測定値の場合、継続的に読み取ることができる連続ファイル形式として保存できます。 TFRecord (Tensorflow) 、 recordIO 、 hdf5 、 pth 、 n5 、 lmdbなどを考慮することを選択できます。

TFRecord ：https：//github.com/vahidk/tfrecord
lmdbデータベース：
- https://github.com/fangyh09/image2lmdb
- https://blog.csdn.net/p_lart/article/details/103208405
- https://github.com/lartpang/pysodtoolbox/blob/master/forbigdataset/imagefolder2lmdb.py
TarファイルとIterableDatasetに基づく実装

事前読み取りデータ

次の反復に必要なデータを事前読み取りします。ユースケース：

Pytorch -Mkfmiku記事でデータローダーを提供する方法-Zhihu
Pytorchへの読み取りデータを加速 - こんにちは - Zhihuに関する記事

メモリ付き

メモリに直接ロードします。
- 画像を読んで、固定コンテナオブジェクトに保存します。
  - - Yolov5の--cache 。
メモリをディスクにマップします。

固体状態で

機械的なハードディスクは、NVMEソリッドステートに置き換えられます。 PytorchのDataloaderで鶏の血を与える方法を参照してください-Mkfmikuの記事-Zhihu

トレーニング戦略

低精度トレーニング

トレーニングでは、元の精度（ FP32 ）表現の代わりに、低精度（ FP16またはINT8 、バイナリネットワーク、および3価値ネットワーク）表現が使用されます。

一定量のビデオメモリを節約してスピードアップできますが、平均や合計などの安全でない操作には注意してください。

混合精密トレーニングの紹介：
- 浅いものから深いものへの混合精密トレーニングチュートリアル
NVIDIA/Apexが提供する混合精度サポート。
- pytorchはアートファクトを必要としていません|ファーストフリー：頂点ベースのハイブリッド精度加速
- 頂点の困難でその他の病気の解決策のPytorchの設置-Chen Hankeの記事-Zhihu
Pytorch1.6は、混合精度をサポートするためにtorch.cuda.amp提供を開始します。

より大きなバッチ

バッチが大きいと、固定されたエポックの場合、トレーニング時間が短くなる傾向があります。ただし、大きなバッチは、ハイパーパラメーターの設定やメモリの使用量など、多くの考慮事項に直面しています。これは、多くの注目を集めている別の領域です。

ハイパーパラメーター設定
- 正確で大きなミニバッチSGD：1時間でイメージネットをトレーニングする、紙
ビデオメモリの使用量を最適化します
- 勾配蓄積
- 勾配チェックポイント
  - サブリンメモリコストでディープネットのトレーニング、紙
- インプレース操作
  - DNN、論文、コードのメモリ最適化されたトレーニング用のインプレースアクティブ化されたバッチノーム

コードレベル

ライブラリ設定

torch.backends.cudnn.benchmark = Trueトレーニングループが計算を高速化できるように設定します。さまざまなカーネルサイズの畳み込みを計算するCudnnアルゴリズムのパフォーマンスは異なるため、オートターナーはベンチマークを実行して最適なアルゴリズムを見つけることができます。入力サイズが頻繁に変更されない場合、この設定を有効にすることをお勧めします。入力サイズが頻繁に変更された場合、オートツナはあまりにも頻繁にベンチマークする必要があり、パフォーマンスを損なう可能性があります。前方および後方の伝播速度を1.27倍から1.70倍にすることができます。
ページを使用してメモリをロックします。つまり、dataloaderでpin_memory=Trueを設定します。
適切なnum_workerについては、詳細な議論はPytorch Speedupガイド-Yunmengの記事-Zhihuに記載されています。
optimizer.zero_grad（set_to_none = falseここでは、 set_to_none=Trueを設定し、パフォーマンスを適度に改善することでmemsetフットプリントを減らすことができます。しかし、これはドキュメントに表示される動作も変更します。Memsetは、 memset model.zero_grad()またはNone optimizer.zero_grad()の設定ではありません。したがって、勾配None 「書き込みのみ」操作を使用して更新されます。
backpropagation中に、 evalモードを使用し、 torch.no_gradを使用して勾配計算をオフにします。
Channels_lastメモリ形式の使用を検討してください。
DataParallel DistributedDataParallelに置き換えます。マルチGPUの場合、単一のノードのみがDataParallel場合でも、 DistributedDataParallel複数のプロセスに適用され、各GPUに1つを作成し、Pythonグローバルインタープリターロック（GIL）をバイパスし、速度を上げて速度を上げて、 DistributedDataParallel常に優先されます。

モデル

Pytorchの初期化とforward個別であるため、未使用の変数を初期化しないでください。使用しないために初期化されません。
@torch.jit.script 、pytroch jitを使用して、ポイントバイポイント操作を単一のcudaカーネルに融合させます。 Pytorchは、大きな寸法のテンソルの動作を最適化します。 Pytorchの小さなテンソルであまりにも多くの操作を行うことは非常に非効率的です。そのため、可能であれば、すべての計算操作をバッチに書き換えると、消費を削減し、パフォーマンスを向上させることができます。バッチ操作を手動で実装できない場合は、Torchscriptを使用してコードのパフォーマンスを改善できます。 TorchscriptはPython関数のサブセットですが、PytorchがPytorchによって検証された後、PytorchはTorchscriptコードを自動的に最適化して、Just In Time（JTT）コンパイラを通じてパフォーマンスを改善できます。しかし、より良いアプローチは、バッチ操作を手動で実装することです。
混合精度でFP16を使用する場合は、すべての異なるアーキテクチャデザインにサイズ8の倍数を設定します。
BNの前の畳み込み層は、バイアスを除去できます。数学的には、Bnの減算によってバイアスを相殺することができます。モデルパラメーターとランタイムメモリを保存できます。

データ

GPUメモリの使用量を最大化するために、バッチサイズを8の倍数に設定します。
GPUでできるだけnumpyスタイルの操作を実行します。
delを使用して、メモリフットプリントを解放します。
異なるデバイス間の不必要なデータ送信は避けてください。
テンソルを作成するときは、デバイスを作成してからターゲットデバイスに転送する代わりに、デバイスを直接指定します。
torch.from_numpy(ndarray)またはtorch.as_tensor(data, dtype=None, device=None)を使用して、メモリを共有することでスペースの再適用を避けます。詳細と注意事項については、対応するドキュメントを参照してください。ソースおよびターゲットデバイスがCPUの場合、 torch.from_numpyおよびtorch.as_tensorデータをコピーしません。ソースデータがnumpy配列の場合、 torch.from_numpyを使用してください。ソースデータが同じデータタイプとデバイスタイプを持つテンソルである場合、 torch.as_tensor 、Pythonのリスト、タプル、またはテンソルであるデータのコピーを避けることができます。
非ブロッキング送信、つまり、 non_blocking=Trueを設定します。これにより、可能であれば非同期変換が試みます。たとえば、ページロックメモリのCPUテンソルをCUDAテンソルに変換します。

オプティマイザーの最適化

モデルパラメーターを連続したメモリに保存し、それによりoptimizer.step()の時間を短縮します。
- contiguous_pytorch_params
頂点に融合するビルディングブロックを使用します

モデル設計

CNN

shufflenetv2、紙。
- 畳み込み層の入力と出力チャネルは一貫しています。畳み込み層の入力と出力の特徴チャネルの数が等しい場合、MAC（メモリアクセス消費時間、 memory access costの略語はMACです）は最小で、モデル速度は現時点で最も速いです
- 畳み込みグループの削減：グループ操作が多すぎるとMacが増加し、モデルが遅くなります
- モデルブランチを削減：モデル内の枝が少ないほど、モデルは速くなります
- element-wise操作を減らす： element-wise操作によってもたらされる時間消費は、フロップに反映される値よりもはるかに大きいため、 element-wise操作を可能な限り最小限に抑える必要があります。 depthwise convolution低フロップと高MACの特性もあります。

ビジョントランス

TRT-vit：Tensortort指向の視覚変圧器、紙、解釈。
- ステージレベル：変圧器ブロックは、モデルの後期段階に適しており、効率とパフォーマンスのトレードオフを最大化します。
- ステージレベル：最初に浅い浅いステージデザインパターンは、パフォーマンスを向上させることができます。
- ブロックレベル：変圧器とボトルネックのハイブリッドブロックは、別のトランスよりも効果的です。
- ブロックレベル：グローバルおよびローカルブロック設計パターンは、パフォーマンスの問題を補うのに役立ちます。

一般的なアイデア

複雑さを減らす：たとえば、モデルの切断と剪定、モデル層とパラメータースケールを減らす
モデル構造の変更：たとえば、モデルの蒸留、知識蒸留方法を通じて小さなモデルを取得する

推論を加速します

半精度と重み付け

推論において、低精度（ FP16またはINT8 、バイナリネットワーク、3価値ネットワーク）表現を使用して、元の精度（ FP32 ）表現を置き換えます。

TensorRTは、Nvidiaが提案するニューラルネットワーク推論エンジンであり、トレーニング後の8ビット量子化をサポートしています。エントロピーベースのモデル量子化アルゴリズムを使用して、2つの分布間の違いの程度を最小限に抑えます。
Pytorch1.3は、QNNPACKの実装に基づいて定量化機能を既にサポートしており、トレーニング後の量子化、動的量子化、および量子化知覚トレーニングおよびその他の技術をサポートしています。
さらに、 Distiller Pytorchに基づいたオープンソースモデルの最適化ツールであり、Pytorchの定量技術を自然にサポートしています。
MicrosoftのNNI 、さまざまな定量的認識トレーニングアルゴリズムを統合し、 PyTorch/TensorFlow/MXNet/Caffe2

詳細については、3つのAIを参照してください。[その他の話]現在のモデルの定量化に利用できるオープンソースツールは何ですか？

運用融合

モデル推論加速スキル：BNとCONVレイヤーの融合-Xiaoxiaojiangの記事-Zhihu
ネットワーク推論段階におけるコンビレイヤーとBN層の収束-Autocyzの記事-Zhihu
Pytorch自体は同様の機能を提供します

再パラメーター化

repvgg
- repvgg | convnetを最後まで、プレーンネットワークは初めて80％TOP1を超えます

時間分析

Pythonには、いくつかのパフォーマンス分析profile 、 cProfile 、 hotshot付属しています。使用方法は基本的に同じです。モジュールが純粋なPythonであるか、Cで書かれているかにすぎません。
Pytorch Profilerは、トレーニングと推論中にパフォーマンスメトリックを収集するツールです。プロファイラーのコンテキストマネージャーAPIを使用して、どのモデルオペレーターが最も高価であるかをよりよく理解し、入力形状とスタックレコードを確認し、デバイスカーネルアクティビティを調査し、実行レコードを視覚化します。

プロジェクトの推奨

pytorchに基づいてモデル圧縮を実装します。
- 定量化：8/4/2ビット（ドレファ）、3価値/バイナリ値（TWN/BNN/XNOR-NET）。
- 剪定：グループ化された畳み込み構造の通常の通常のチャネル剪定。
- グループ化された畳み込み構造。
- 特徴バイナリ量子化のためのBN融合。

拡張された読書

Pytorch Dataloaderデータの読み込みは、ほとんどの場合になります。どうやって解決しますか？ -Zhihu
Pytorchを使用する場合、数千万人に到達するにはトレーニングセットデータが多すぎます。DataloAderが非常にゆっくりとロードされた場合はどうすればよいですか？ -Zhihu
Pytorchの落とし穴/バグは何ですか？ -Zhihu
Pytorchトレーニングコードの最適化
26秒シングルGPUトレーニングCIFAR10、ジェフディーンは深い学習最適化スキルも気に入っています - マシンの中心に関する記事 - Zhihu
オンラインモデルでいくつかの新機能をトレーニングした後、Tensorflowの予測時間は、元のモデルの20倍以上に遅くなるのはなぜですか？ -Tzesingの答え-Zhihu
ディープラーニングモデルの圧縮
今日、あなたのモデルは加速しましたか？参照のための5つの方法を次に示します（コード分析付き）
Pytorchの一般的な落とし穴の概要-Yu Zhenboの記事-Zhihu
Pytorch Speedupガイド-Yunmengの記事-Zhihu
Pytorchの速度とメモリ効率を最適化する（2022）

Pytorchはビデオメモリを保存します

元のドキュメント：https：//www.yuque.com/lart/ugkv9f/nvffyf
収集：Pytorchでメモリ（ビデオメモリ）を保存するためのヒントは何ですか？ -Zhihu https://www.zhihu.com/question/274635237

インプレースを使用します

デフォルトでinplaceサポートする操作を有効にするようにしてください。たとえば、 relu inplace=True使用できます。
batchnormおよびいくつかの特定のアクティベーション関数は、 inplace_abnにパッケージ化できます。

損失関数

各ループの端で損失を削除すると、ビデオメモリはほとんど保存できませんが、何もないよりはましです。変数へのテンソルとメモリは、ベストプラクティスを解放します

混合精度

一定量のビデオメモリを節約してスピードアップできますが、平均や合計などの安全でない操作には注意してください。

混合精密トレーニングの紹介：
- 浅いものから深いものへの混合精密トレーニングチュートリアル
NVIDIA/Apexが提供する混合精度サポート。
- pytorchはアートファクトを必要としていません|ファーストフリー：頂点ベースのハイブリッド精度加速
- 頂点の困難でその他の病気の解決策のPytorchの設置-Chen Hankeの記事-Zhihu
Pytorch1.6は、混合精度をサポートするためにtorch.cuda.amp提供を開始します。

バックプロパゲーションを必要としない操作を管理します

検証期間や推論期間など、バックプロパゲーションを必要としない前段階の場合、 torch.no_gradを使用してコードをラップします。
- model.eval() torch.no_grad()に等しくないことに注意してください。次の説明を参照してください。 'model.eval（）' vs 'with torch.no_grad（）'
変数が不必要な勾配のメモリ使用量を減らすために勾配の逆方向の伝播に関与しないように、勾配をFalseに計算する必要のない変数のrequires_gradを設定します。
計算する必要のない勾配パスを削除します。
- 確率的バックプロパゲーション：ビデオモデルをトレーニングするためのメモリ効率的な戦略、解釈が確認できます。
  - https://www.yuque.com/lart/papers/xu5t00
  - https://blog.csdn.net/p_lart/article/details/124978961

ビデオメモリクリーニング

torch.cuda.empty_cache()は、 delの高度なバージョンです。 nvidia-smiを使用すると、ビデオメモリには明らかな変更があることがわかります。ただし、トレーニング中の最大ビデオメモリの使用は変わらないようです。試してみることができます：GPUメモリキャッシュをどのようにリリースできますか？
delを使用して、不要な中間変数を削除するか、 replacing variables形式を使用して占有率を減らすことができます。

勾配蓄積

batchsize=64 32の2つのバッチに分割し、2回転送した後、1回後方になります。ただし、 batchnormやbatchsizeに関連する他のレイヤーに影響します。

Pytorchの文書では、勾配の蓄積と混合精度を使用する例が言及されています。

勾配蓄積技術を使用して分散トレーニングを加速します。これは、[オリジナル] [ディープ] [Pytorch] DDPシリーズ3：実用的およびスキル-996ゴールデンジェネレーション-Zhihuを参照するために使用できます。

勾配チェックポイント

torch.utils.checkpointはPytorchで提供されています。これは、バックプロパゲーション中に各チェックポイントの場所で前方の伝播を再実行することによって達成されます。

サブリンメモリコストを備えたペーパートレーニングディープネットは、勾配チェックポイントテクノロジーに基づいて、ビデオメモリをO（n）からO（SQRT（n））に削減します。より深いモデルの場合、この方法が保存するメモリが増え、大幅に遅くなりません。

Pytorchのチェックポイントメカニズムの分析
torch.utils.checkpointの紹介と使いやすい
参照されるサブリンメモリコストのPytorch実装：Pytorchでメモリ（ビデオメモリ）を保存するためのヒントは何ですか？ - リケンの答え-Zhihu

参照

Pytorchでメモリ（ビデオメモリ）を保存するためのヒントは何ですか？ -Zheng Zhedongの答え-Zhihu
深い学習に関する簡単な議論：モデルと中間変数のメモリフットプリントを計算する方法
Pytorchでビデオメモリを細かく利用する方法
Pytorchでビデオメモリを保存するためのヒントは何ですか？ - チェン・ハンケの答え-Zhihu
Pytorchビデオメモリメカニズムの分析 - コノリーの記事-Zhihu

他のヒント

再現します

ドキュメントの関連する章に従うことができます。

必須の決定論的操作

非決定的アルゴリズムの使用は避けてください。

pytorchでは、 torch.use_deterministic_algorithms()は、非決定論的アルゴリズムの代わりに決定論的アルゴリズムの使用を強制することができ、操作が非決定論的なものであることが知られている場合（および決定論的な代替品がない）場合、エラーがスローされます。

乱数シードを設定します

 def seed_torch ( seed = 1029 ):
    random . seed ( seed )
    os . environ [ 'PYTHONHASHSEED' ] = str ( seed )
    np . random . seed ( seed )
    torch . manual_seed ( seed )
    torch . cuda . manual_seed ( seed )
    torch . cuda . manual_seed_all ( seed ) # if you are using multi-GPU.
    torch . backends . cudnn . benchmark = False
    torch . backends . cudnn . deterministic = True

seed_torch ()

https://www.zdaiot.com/mlframeworks/pytorch/pytorch%E9%9A%8F%E6からの参照

Pytorchバージョン1.9の前のDataloaderの隠されたバグ

具体的な詳細は、95％の人々がまだPytorchの間違いを犯していることを示しています - Serendipityの記事-Zhihu

ソリューションについては、ドキュメントを参照してください。

 def seed_worker ( worker_id ):
    worker_seed = torch . initial_seed () % 2 ** 32
    numpy . random . seed ( worker_seed )
    random . seed ( worker_seed )

DataLoader (..., worker_init_fn = seed_worker )