semantic segmentation pytorch下载 - semantic segmentation pytorch源代码下载

semantic segmentation pytorch

Python

1.0.0

下载

MIT ADE20K数据集的语义细分

这是MIT ADE20K场景解析数据集（http://sceneparsing.csail.mit.met.edu/）上语义分割模型的Pytorch实现。

ADE20K是MIT Computer Vision团队发布的最大的用于语义细分和场景解析的开源数据集。请点击下面的链接，以找到我们数据集的存储库，并在Caffe和Torch7上找到实现：https：//github.com/csailvision/sceneparsing

如果您只想玩我们的演示，请尝试以下链接：http：//scenesegration.csail.mit.edu，您可以上传自己的照片并解析！

您也可以在此处使用此COLAB笔记本电脑操场，以修补用于分割图像的代码。

所有审慎的模型均可在以下网址找到：http：//sceneparsing.csail.mit.mit.edu/model/pytorch

[从左到右：测试图像，地面真相，预测结果]

语义类别的颜色编码可以在此处找到：https：//docs.google.com/spreadsheets/d/1se8yetb2dets7oupe86fxgyd269pmycawe2mtkuj2mtkuj2w8/edit？usp = sharing

更新

现在支持HRNET模型。
我们使用配置文件来存储参数解析器中的大多数选项。选项的定义在config/defaults.py中详细介绍。
我们符合数据预处理中的Pytorch实践（RGB [0，1]，subtract均值，分割性std）。

亮点

在Pytorch上同步批准

该模块在训练过程中计算所有设备上所有设备的平均值和标准差。我们从经验上发现，合理的大批量大小对于分割很重要。我们感谢Jiayuan Mao所做的贡献，请参阅同步Batchnorm-Pytorch，以获取详细信息。

实现易于使用：

它是纯净的，没有C ++额外的扩展液。
它与Pytorch的实现完全兼容。具体而言，它使用无偏差来更新移动平均值，并使用SQRT（Max（var，eps））而不是SQRT（VAR + EPS）。
它是有效的，仅比UNSYNCBN慢20％至30％。

多个GPU训练的输入的动态尺度

对于语义细分的任务，最好在训练过程中保持图像的长宽比。因此，我们重新实现DataParallel模块，并使其支持将数据分配到Python dict中的多个GPU，以便每个GPU都可以处理不同尺寸的图像。同时，数据加载程序的运行方式也不同。

^{现在，数据加载程序的批处理大小始终等于GPU的数量，每个元素将发送到GPU。它也与多处理兼容。请注意，多处理数据加载程序的文件索引存储在总体过程中，这与我们的目标相矛盾，即每个工人都维护自己的文件列表。因此，我们使用一个技巧，尽管总体过程仍然使数据加载程序为__getitem__函数提供索引，但我们只是忽略了此请求并发送随机批次。同样，由数据加载器分配的多名工人都有相同的种子，如果我们直接使用上述技巧，您会发现多个工人将产生完全相同的数据。因此，我们添加了一行代码，该代码在激活数据加载器中的多个工人之前，为numpy.random设置了defaut seed。}

最先进的模型

PSPNET是场景解析网络，它通过金字塔池（PPM）汇总全局表示。这是ILSVRC'16 MIT场景解析挑战的赢家模型。有关详细信息，请参阅https://arxiv.org/abs/1612.01105。
UPERNET是基于特征金字塔网络（FPN）和金字塔池模块（PPM）的模型。它不需要扩张的卷积，这是一种时间和内存的操作员。没有铃铛和口哨，与PSPNET相比，它是可比甚至更好的，同时需要较短的训练时间和更少的GPU记忆。有关详细信息，请参考https://arxiv.org/abs/1807.10221。
HRNET是一个最近提出的模型，在整个模型中保留高分辨率表示，而没有传统的瓶颈设计。它在一系列像素标签任务上实现了SOTA性能。有关详细信息，请参考https://arxiv.org/abs/1904.04514。

支持的模型

我们将模型分为编码器和解码器，在该编码器和解码器中，编码器通常直接从分类网络进行修改，并且解码器由最终的卷积和UPSMPLING组成。我们已经在config夹中提供了一些预配置的模型。

编码器：

Mobilenetv2DIDED
RESNET18/RESNET18DILAIND
RESNET50/RESNET50DILED
resnet101/resnet101Dilated
HRNETV2（W48）

解码器：

C1（一个卷积模块）
c1_deepsup（C1 +深度监督技巧）
ppm（金字塔池模块，有关详细信息，请参见PSPNET纸。）
ppm_deepsup（ppm +深度监督技巧）
Upernet（金字塔池 + FPN头，请参阅Upernet有关详细信息。）

表现：

重要的是：我们的存储库中的基本重新设置是定制的（与火车中的一个不同）。基本型号将在需要时自动下载。

建筑学	多尺度测试	意思是我	像素精度（％）	总分	推理速度（FPS）
Mobilenetv2Dilated + C1_Deepsup	不	34.84	75.75	54.07	17.2
Mobilenetv2Dilated + C1_Deepsup	是的	33.84	76.80	55.32	10.3
MobilenetV2Dilated + ppm_deepsup	不	35.76	77.77	56.27	14.9
MobilenetV2Dilated + ppm_deepsup	是的	36.28	78.26	57.27	6.7
resnet18dilated + c1_deepsup	不	33.82	76.05	54.94	13.9
resnet18dilated + c1_deepsup	是的	35.34	77.41	56.38	5.8
resnet18dilated + ppm_deepsup	不	38.00	78.64	58.32	11.7
resnet18dilated + ppm_deepsup	是的	38.81	79.29	59.05	4.2
resnet50dilated + ppm_deepsup	不	41.26	79.73	60.50	8.3
resnet50dilated + ppm_deepsup	是的	42.14	80.13	61.14	2.6
resnet101Dilated + ppm_deepsup	不	42.19	80.59	61.39	6.8
resnet101Dilated + ppm_deepsup	是的	42.53	80.91	61.72	2.0
UPERNET50	不	40.44	79.80	60.12	8.4
UPERNET50	是的	41.55	80.23	60.89	2.9
UPERNET101	不	42.00	80.79	61.40	7.8
UPERNET101	是的	42.66	81.01	61.84	2.3
HRNETV2	不	42.03	80.77	61.40	5.8
HRNETV2	是的	43.20	81.47	62.34	1.9

该培训是在用8个NVIDIA PASCAL TITAN XP GPU（12GB GPU内存）的服务器上进行基准测试的，推理速度在没有可视化的情况下对单个NVIDIA PASCAL TITAN XP GPU进行了基准测试。

环境

该代码是在以下配置下开发的。

硬件：> = 4 GPU用于训练，> = 1 GPU用于测试（相应设置[--gpus GPUS] ）
软件：ubuntu 16.04.3 lts， cuda> = 8.0，python> = 3.5，pytorch> = 0.4.0
依赖项：numpy，scipy，opencv，yacs，tqdm

快速启动：使用我们训练的模型在图像上测试

这是一个简单的演示，可以在单个图像上进行推断：

chmod +x demo_test.sh
./demo_test.sh

该脚本下载了训练有素的模型（resnet50diled + ppm_deepsup）和一个测试映像，运行测试脚本，并将预测的细分（.png）保存到工作目录中。

要在图像或图像文件夹（ $PATH_IMG ）上测试，您只需进行以下操作：

 python3 -u test.py --imgs $PATH_IMG --gpu $GPU --cfg $CFG

训练

下载ADE20K场景解析数据集：

chmod +x download_ADE20K.sh
./download_ADE20K.sh

通过选择用于使用的GPU（ $GPUS ）和配置文件（ $CFG ）来训练模型。在培训期间，默认情况下，检查点保存在文件夹ckpt中。

python3 train.py --gpus $GPUS --cfg $CFG

要选择要使用的GPU，您可以做--gpus 0-7或--gpus 0,2,4,6 。

例如，您可以从我们提供的配置开始：

火车MobileNetV2DILADED + C1_DEEPSUP

python3 train.py --gpus GPUS --cfg config/ade20k-mobilenetv2dilated-c1_deepsup.yaml

火车resnet50dilated + ppm_deepsup

python3 train.py --gpus GPUS --cfg config/ade20k-resnet50dilated-ppm_deepsup.yaml

训练Upernet101

python3 train.py --gpus GPUS --cfg config/ade20k-resnet101-upernet.yaml

您还可以在命令行中覆盖选项，例如python3 train.py TRAIN.num_epoch 10 。

评估

在验证集上评估训练有素的模型。在参数中添加VAL.visualize True以输出可视化，如预告片所示。

例如：

评估MobileNetV2DILAIDED + C1_DEEPSUP

python3 eval_multipro.py --gpus GPUS --cfg config/ade20k-mobilenetv2dilated-c1_deepsup.yaml

评估RESNET50DILAIND + PPM_DEEPSUP

python3 eval_multipro.py --gpus GPUS --cfg config/ade20k-resnet50dilated-ppm_deepsup.yaml

评估UPERNET101

python3 eval_multipro.py --gpus GPUS --cfg config/ade20k-resnet101-upernet.yaml

与其他项目集成

该库可以通过pip安装以轻松与另一代码库集成

pip install git+https://github.com/CSAILVision/semantic-segmentation-pytorch.git@master

现在，该库可以很容易地以编程方式消费。例如

 from mit_semseg . config import cfg
from mit_semseg . dataset import TestDataset
from mit_semseg . models import ModelBuilder , SegmentationModule

参考

如果您发现代码或预培训模型有用，请引用以下论文：

通过ADE20K数据集对场景的语义理解。 B. Zhou，H。Zhao，X。Puig，T。Xiao，S。Fidler，A。Barriuso和A. Torralba。国际计算机视觉杂志（IJCV），2018年。（https：//arxiv.org/pdf/1608.05442.pdf）

 @article{zhou2018semantic,
  title={Semantic understanding of scenes through the ade20k dataset},
  author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Xiao, Tete and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
  journal={International Journal on Computer Vision},
  year={2018}
}

场景通过ADE20K数据集解析。 B. Zhou，H。Zhao，X。Puig，S。Fidler，A。Barriuso和A. Torralba。计算机视觉和模式识别（CVPR），2017年。

 @inproceedings{zhou2017scene,
    title={Scene Parsing through ADE20K Dataset},
    author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
    booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
    year={2017}
}

展开

附加信息