semantic segmentation pytorchダウンロード - semantic segmentation pytorchソースコードダウンロード

semantic segmentation pytorch

パイソン

1.0.0

ダウンロード

PytorchのMIT ADE20Kデータセットのセマンティックセグメンテーション

これは、MIT ADE20Kシーンの解析データセット（http://sceneparsing.csail.mit.edu/）のセマンティックセグメンテーションモデルのPytorch実装です。

ADE20Kは、MITコンピュータービジョンチームによってリリースされたセマンティックセグメンテーションとシーン解析の最大のオープンソースデータセットです。以下のリンクをフォローして、データセットのリポジトリとCaffeとTorch7の実装を見つけてください：https：//github.com/csailvision/sceneparsing

単にデモで再生したい場合は、このリンクをお試しください：http：//scenesegmentation.csail.mit.edu独自の写真をアップロードして解析できます！

また、このコラブノートブックの遊び場を使用して、画像をセグメント化するためのコードをいじくり回すこともできます。

すべての前のモデルは、http：//sceneparsing.csail.mit.edu/model/pytorchにあります

[左から右へ：画像、グラウンドトゥルース、予測結果をテストする]

セマンティックカテゴリの色エンコーディングは、https：//docs.google.com/spreadsheets/d/1se8yetb2dets7oupe86fxgyd269pmycawe2mtkuj28/edit?usp = sharingにあります。

更新

HRNETモデルがサポートされています。
構成ファイルを使用して、引数パーサーにあるほとんどのオプションを保存します。オプションの定義は、 config/defaults.pyで詳しく説明されています。
データの前処理（RGB [0、1]、サブストレクト平均、分裂STD）のPytorch Practiceに準拠しています。

ハイライト

Pytorchでのsyncronized Batch正規化

このモジュールは、トレーニング中にすべてのデバイスにわたって平均と標準控除を計算します。合理的な大きなバッチサイズがセグメンテーションに重要であることが経験的にわかります。彼の親切な貢献についてJiayuan Maoに感謝します。詳細については、Synchronized-BatchNorm-Pytorchを参照してください。

実装は次のように使いやすいです

それは純粋なパイソンであり、C ++余分な拡張リブはありません。
Pytorchの実装と完全に互換性があります。具体的には、偏りのない差異を使用して移動平均を更新し、SQRT（VAR + EPS）の代わりにSQRT（MAX（VAR、EPS））を使用します。
効率的で、UNSYNCBNよりも20％から30％遅いです。

複数のGPUを使用したトレーニング用の入力の動的スケール

セマンティックセグメンテーションのタスクについては、トレーニング中に画像のアスペクト比を維持することは良いことです。したがって、 DataParallelアレルモジュールを再実装し、Python Dictの複数のGPUへのデータの分散をサポートして、各GPUが異なるサイズの画像を処理できるようにします。同時に、Dataloaderも異なって動作します。

^{これで、Dataloaderのバッチサイズは常にGPUの数に等しく、各要素はGPUに送信されます。また、マルチプロセスと互換性があります。マルチプローシングデータローダーのファイルインデックスはマスタープロセスに保存されていることに注意してください。これは、各ワーカーが独自のファイルリストを維持しているという目標とは矛盾しています。したがって、マスタープロセスは依然としてdataloaderに__getitem__関数のインデックスを提供するが、そのようなリクエストを無視してランダムバッチDICTを送信するトリックを使用します。また、 Dataloaderによって分岐した複数の労働者はすべて同じ種を持っているので、上記のトリックを直接使用すると、複数の労働者がまったく同じデータを生成することがわかります。したがって、Dataloaderで複数のワーカーをアクティブにする前に、 numpy.randomのDefaut Seedを設定するコードの1行を追加します。}

最先端のモデル

PSPNETは、グローバル表現をピラミッドプーリングモジュール（PPM）と集約するシーンの解析ネットワークです。 ILSVRC'16 MITシーンの解析チャレンジの勝者モデルです。詳細については、https：//arxiv.org/abs/1612.01105を参照してください。
Upernetは、特徴のピラミッドネットワーク（FPN）およびピラミッドプーリングモジュール（PPM）に基づくモデルです。拡張された畳み込みは必要ありません。これは、時間とメモリの消費であるオペレーターです。鐘やホイッスルがなければ、PSPNETと比較して比較またはさらに優れていますが、トレーニング時間がはるかに短く、GPUメモリが少なくなります。詳細については、https：//arxiv.org/abs/1807.10221を参照してください。
HRNETは、従来のボトルネック設計なしで、モデル全体に高解像度の表現を保持する最近提案されたモデルです。一連のピクセルラベル付けタスクでSOTAパフォーマンスを実現します。詳細については、https：//arxiv.org/abs/1904.04514を参照してください。

サポートされているモデル

モデルをエンコーダーとデコーダーに分割します。エンコーダーは通常、分類ネットワークから直接変更され、デコーダーは最終的な畳み込みとアップサンプリングで構成されます。 configフォルダーに事前に構成されたモデルをいくつか提供しました。

エンコーダー：

mobilenetv2dilated
resnet18/resnet18dilated
resnet50/resnet50dilated
resnet101/resnet101dilated
HRNETV2（W48）

デコーダ：

C1（1つの畳み込みモジュール）
c1_deepsup（c1 + deep監督のトリック）
PPM（ピラミッドプーリングモジュール、詳細についてはPSPNETペーパーを参照してください。）
ppm_deepsup（ppm + deep監督のトリック）
upernet（ピラミッドプーリング + fpnヘッド、詳細についてはupernetを参照してください。）

パフォーマンス：

重要：リポジトリのベースレストネットはカスタマイズされています（TorchVisionのものとは異なります）。ベースモデルは、必要に応じて自動的にダウンロードされます。

建築	マルチスケールテスト	平均iou	ピクセル精度（％）	全体的なスコア	推論速度（FPS）
mobilenetv2dilated + c1_deepsup	いいえ	34.84	75.75	54.07	17.2
mobilenetv2dilated + c1_deepsup	はい	33.84	76.80	55.32	10.3
mobilenetv2dilated + ppm_deepsup	いいえ	35.76	77.77	56.27	14.9
mobilenetv2dilated + ppm_deepsup	はい	36.28	78.26	57.27	6.7
resnet18dilated + c1_deepsup	いいえ	33.82	76.05	54.94	13.9
resnet18dilated + c1_deepsup	はい	35.34	77.41	56.38	5.8
resnet18dilated + ppm_deepsup	いいえ	38.00	78.64	58.32	11.7
resnet18dilated + ppm_deepsup	はい	38.81	79.29	59.05	4.2
Resnet50dilated + ppm_deepsup	いいえ	41.26	79.73	60.50	8.3
Resnet50dilated + ppm_deepsup	はい	42.14	80.13	61.14	2.6
resnet101dilated + ppm_deepsup	いいえ	42.19	80.59	61.39	6.8
resnet101dilated + ppm_deepsup	はい	42.53	80.91	61.72	2.0
upernet50	いいえ	40.44	79.80	60.12	8.4
upernet50	はい	41.55	80.23	60.89	2.9
upernet101	いいえ	42.00	80.79	61.40	7.8
upernet101	はい	42.66	81.01	61.84	2.3
HRNETV2	いいえ	42.03	80.77	61.40	5.8
HRNETV2	はい	43.20	81.47	62.34	1.9

トレーニングは、8 NVIDIA Pascal Titan XP GPU（12GB GPUメモリ）を備えたサーバーでベンチマークされており、推論速度は視覚化なしで単一のNVIDIA Pascal Titan XP GPUをベンチマークしています。

環境

コードは、次の構成の下で開発されます。

ハードウェア：> =トレーニング用の4 gpus、> = 1 gpuテスト用（set [--gpus GPUS]それに応じて）
ソフトウェア：ubuntu 16.04.3 LTS、 cuda> = 8.0、python> = 3.5、pytorch> = 0.4.0
依存関係：numpy、scipy、opencv、yacs、tqdm

クイックスタート：訓練されたモデルを使用して画像をテストする

これは、単一の画像に推論を行うための簡単なデモです。

chmod +x demo_test.sh
./demo_test.sh

このスクリプトは、訓練されたモデル（ResNet50dilated + PPM_Deepsup）とテスト画像をダウンロードし、テストスクリプトを実行し、予測されたセグメンテーション（.PNG）をワーキングディレクトリに保存します。

画像または画像のフォルダー（ $PATH_IMG ）でテストするには、次のことを実行できます。

 python3 -u test.py --imgs $PATH_IMG --gpu $GPU --cfg $CFG

トレーニング

ADE20Kシーンの解析データセットをダウンロード：

chmod +x download_ADE20K.sh
./download_ADE20K.sh

使用するGPU（ $GPUS ）と構成ファイル（ $CFG ）を選択してモデルをトレーニングします。トレーニング中、デフォルトでチェックポイントがフォルダーckptに保存されます。

python3 train.py --gpus $GPUS --cfg $CFG

使用するGPUを選択するには、 --gpus 0-7 、または--gpus 0,2,4,6いずれかを選択できます。

たとえば、提供された構成から始めることができます。

Train MobileNetv2dilated + C1_Deepsup

python3 train.py --gpus GPUS --cfg config/ade20k-mobilenetv2dilated-c1_deepsup.yaml

トレーニングresnet50dilated + ppm_deepsup

python3 train.py --gpus GPUS --cfg config/ade20k-resnet50dilated-ppm_deepsup.yaml

トレーニングUpernet101

python3 train.py --gpus GPUS --cfg config/ade20k-resnet101-upernet.yaml

また、 python3 train.py TRAIN.num_epoch 10など、コマンドラインのオプションをオーバーライドすることもできます。

評価

検証セットで訓練されたモデルを評価します。ティーザーに示されているように、 VAL.visualize True output Visualizations。

例えば：

Mobilenetv2dilated + c1_deepsupを評価します

python3 eval_multipro.py --gpus GPUS --cfg config/ade20k-mobilenetv2dilated-c1_deepsup.yaml

Resnet50dilated + PPM_Deepsupを評価します

python3 eval_multipro.py --gpus GPUS --cfg config/ade20k-resnet50dilated-ppm_deepsup.yaml

Upernet101を評価します

python3 eval_multipro.py --gpus GPUS --cfg config/ade20k-resnet101-upernet.yaml

他のプロジェクトとの統合

このライブラリはpipでインストールして、別のコードベースと簡単に統合できます

pip install git+https://github.com/CSAILVision/semantic-segmentation-pytorch.git@master

これで、このライブラリはプログラムで簡単に消費できます。例えば

 from mit_semseg . config import cfg
from mit_semseg . dataset import TestDataset
from mit_semseg . models import ModelBuilder , SegmentationModule

参照

コードまたは事前に訓練されたモデルが有用であることがわかった場合は、次の論文を引用してください。

ADE20Kデータセットを介したシーンの意味的理解。 B. Zhou、H。Zhao、X。Puig、T。Xiao、S。Fidler、A。Barriuso、A。Torralba。 International Journal on Computer Vision（IJCV）、2018（https://arxiv.org/pdf/1608.05442.pdf）

 @article{zhou2018semantic,
  title={Semantic understanding of scenes through the ade20k dataset},
  author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Xiao, Tete and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
  journal={International Journal on Computer Vision},
  year={2018}
}

ADE20Kデータセットを介したシーンの解析。 B. Zhou、H。Zhao、X。Puig、S。Fidler、A。Barriuso、A。Torralba。コンピュータービジョンとパターン認識（CVPR）、2017年（http://people.csail.mit.edu/bzhou/publication/scene-parse-camera-edead.pdf）

 @inproceedings{zhou2017scene,
    title={Scene Parsing through ADE20K Dataset},
    author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
    booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
    year={2017}
}

拡大する

追加情報