semantic segmentation pytorch Download - semantic segmentation pytorch Code source Télécharger

semantic segmentation pytorch

Python

1.0.0

Télécharger

Segmentation sémantique sur l'ensemble de données MIT ADE20K à Pytorch

Il s'agit d'une implémentation Pytorch de modèles de segmentation sémantique sur l'ensemble de données d'analyse MIT ADE20K (http://sceneparsing.csail.mit.edu/).

ADE20K est le plus grand ensemble de données open source pour la segmentation sémantique et l'analyse de scène, publié par l'équipe de vision informatique du MIT. Suivez le lien ci-dessous pour trouver le référentiel pour notre ensemble de données et nos implémentations sur Caffe et Torch7: https://github.com/csailvision/sceneParsing

Si vous souhaitez simplement jouer avec notre démo, veuillez essayer ce lien: http://sceseegmentation.csail.mit.edu Vous pouvez télécharger votre propre photo et analyser!

Vous pouvez également utiliser ce terrain de jeu Colab Notebook ici pour bricoler avec le code pour segmenter une image.

Tous les modèles pré-entraînés peuvent être trouvés sur: http://sceneparsing.csail.mit.edu/model/pytorch

[De gauche à droite: test d'image, vérité au sol, résultat prédit]

Le codage couleur des catégories sémantiques peut être trouvée ici: https://docs.google.com/spreadsheets/d/1se8yetb2dets7oupe86fxgyd269pmycawe2mtkuj2w8/edit?usp=sharing

Mises à jour

Le modèle HRNET est désormais pris en charge.
Nous utilisons des fichiers de configuration pour stocker la plupart des options qui étaient en analyser d'arguments. Les définitions des options sont détaillées dans config/defaults.py .
Nous nous sommes conformes à la pratique de Pytorch dans le prétraitement des données (RVB [0, 1], soustraire la moyenne, diviser STD).

Points forts

Normalisation par lots syncronisée sur Pytorch

Ce module calcule la moyenne et la déviation standard sur tous les appareils pendant la formation. Nous constatons empiriquement qu'une grande taille de lot raisonnable est importante pour la segmentation. Nous remercions Jiayuan Mao pour ses aimables contributions, veuillez vous référer à Synchronized-Batchnorm-Pytorch pour plus de détails.

L'implémentation est facile à utiliser comme:

Il est pur-python, pas de libs d'extension supplémentaires C ++.
Il est entièrement compatible avec l'implémentation de Pytorch. Plus précisément, il utilise la variance impartiale pour mettre à jour la moyenne mobile et utiliser SQRT (Max (Var, EPS)) au lieu de SQRT (VAR + EPS).
Il est efficace, seulement 20% à 30% plus lent que UNSYNCBN.

Échelles dynamiques d'entrée pour la formation avec plusieurs GPU

Pour la tâche de la segmentation sémantique, il est bon de maintenir le rapport d'aspect des images pendant la formation. Nous réimplémentons donc le module DataParallel et faisons de son prise en charge de distribution de données à plusieurs GPU dans Python Dict, afin que chaque GPU puisse traiter des images de différentes tailles. Dans le même temps, le dataloader fonctionne également différemment.

^{Désormais, la taille du lot d'un dataloader équivaut toujours au nombre de GPU , chaque élément sera envoyé à un GPU. Il est également compatible avec le multi-traitement. Notez que l'index de fichiers pour le dataloader multiprocesseur est stocké sur le processus maître, ce qui est en contrediction avec notre objectif pour que chaque travailleur conserve sa propre liste de fichiers. Nous utilisons donc une astuce que bien que le processus maître donne toujours à DatalOader un index pour la fonction __getitem__ , nous ignorons simplement une telle demande et envoyons un dict aléatoire. En outre, les multiples travailleurs fourchus par le dataloader ont tous la même graine , vous constaterez que plusieurs travailleurs fourniront exactement les mêmes données, si nous utilisons directement l'astuce susmentionnée. Par conséquent, nous ajoutons une ligne de code qui définit la graine Defaut pour numpy.random avant d'activer plusieurs travailleurs dans DatalOader.}

Modèles de pointe

PSPNET est un réseau d'analyse de scène qui regroupe la représentation globale avec le module de mise en commun des pyramides (PPM). Il s'agit du modèle gagnant du défi d'analyse de scène ILSVRC'16 MIT. Veuillez vous référer à https://arxiv.org/abs/1612.01105 pour plus de détails.
UPERNET est un modèle basé sur le réseau de pyramides (FPN) et le module de pool Pyramid (PPM). Il n'a pas besoin de convolution dilatée, un opérateur consommant du temps et de la mémoire. Sans cloches et sifflets , il est comparable ou même mieux par rapport à PSPNET, tout en nécessitant un temps de formation beaucoup plus court et moins de mémoire GPU. Veuillez vous référer à https://arxiv.org/abs/1807.10221 pour plus de détails.
HRNET est un modèle récemment proposé qui conserve des représentations haute résolution tout au long du modèle, sans la conception traditionnelle du goulot d'étranglement. Il réalise les performances SOTA sur une série de tâches d'étiquetage de pixels. Veuillez vous référer à https://arxiv.org/abs/1904.04514 pour plus de détails.

Modèles pris en charge

Nous divisons nos modèles en encodeur et en décodeur, où les encodeurs sont généralement modifiés directement à partir des réseaux de classification, et les décodeurs sont constitués de convolutions finales et d'échantillonnage. Nous avons fourni des modèles préconfigurés dans le dossier config .

Encodeur:

MobileNetv2dilaté
RESNET18 / RESNET18DILED
RESNET50 / RESNET50
Resnet101 / resnet101
HRNETV2 (W48)

Décodeur:

C1 (un module de convolution)
C1_Deepsup (astuce de supervision profonde C1 +)
PPM (module de mise en commun pyramide, voir le papier PSPNET pour plus de détails.)
Ppm_deepsup (ppm + astuce de supervision profonde)
UPERNET (Pyramid Pooring + FPN Head, voir UperNet pour plus de détails.)

Performance:

IMPORTANT: Le Resnet de base de notre référentiel est personnalisé (différent de celui de TorchVision). Les modèles de base seront automatiquement téléchargés en cas de besoin.

Architecture	Tests à plusieurs échelles	Signifie iou	Précision des pixels (%)	Score global	Vitesse d'inférence (FPS)
MobileNetv2Dilated + c1_deepsup	Non	34.84	75.75	54.07	17.2
MobileNetv2Dilated + c1_deepsup	Oui	33,84	76.80	55,32	10.3
MobileNetv2Dilated + ppm_deepsup	Non	35,76	77.77	56.27	14.9
MobileNetv2Dilated + ppm_deepsup	Oui	36.28	78.26	57.27	6.7
Resnet18Diled + C1_Deepsup	Non	33,82	76.05	54.94	13.9
Resnet18Diled + C1_Deepsup	Oui	35.34	77.41	56.38	5.8
Resnet18Dilated + ppm_deepsup	Non	38.00	78,64	58,32	11.7
Resnet18Dilated + ppm_deepsup	Oui	38.81	79.29	59.05	4.2
Resnet50Dilated + ppm_deepsup	Non	41.26	79.73	60,50	8.3
Resnet50Dilated + ppm_deepsup	Oui	42.14	80.13	61.14	2.6
Resnet101 noté + ppm_deepsup	Non	42.19	80,59	61.39	6.8
Resnet101 noté + ppm_deepsup	Oui	42.53	80.91	61.72	2.0
Upernet50	Non	40.44	79.80	60.12	8.4
Upernet50	Oui	41,55	80.23	60,89	2.9
Upernet101	Non	42.00	80.79	61.40	7.8
Upernet101	Oui	42.66	81.01	61.84	2.3
Hrnetv2	Non	42.03	80.77	61.40	5.8
Hrnetv2	Oui	43.20	81.47	62.34	1.9

La formation est comparée sur un serveur avec 8 GPU NVIDIA Pascal Titan XP (mémoire GPU 12 Go), la vitesse d'inférence est compatible un seul GPU Nvidia Pascal Titan XP, sans visualisation.

Environnement

Le code est développé dans les configurations suivantes.

Matériel:> = 4 GPU pour la formation,> = 1 GPU pour les tests (set [--gpus GPUS] en conséquence)
Logiciel: Ubuntu 16.04.3 LTS, CUDA> = 8.0, Python> = 3,5, Pytorch> = 0,4.0
Dépendances: Numpy, Scipy, OpenCV, YACS, TQDM

Démarrage rapide: tester sur une image en utilisant notre modèle formé

Voici une simple démo pour faire une inférence sur une seule image:

chmod +x demo_test.sh
./demo_test.sh

Ce script télécharge un modèle formé (RESNET50Dilated + ppm_deepsup) et une image de test, exécute le script de test et enregistre la segmentation prédite (.png) dans le répertoire de travail.

Pour tester sur une image ou un dossier d'images ( $PATH_IMG ), vous pouvez simplement effectuer ce qui suit:

 python3 -u test.py --imgs $PATH_IMG --gpu $GPU --cfg $CFG

Entraînement

Téléchargez l'ensemble de données d'analyse de la scène ADE20K:

chmod +x download_ADE20K.sh
./download_ADE20K.sh

Formez un modèle en sélectionnant les GPU ( $GPUS ) et le fichier de configuration ( $CFG ) à utiliser. Pendant la formation, les points de contrôle par défaut sont enregistrés dans le dossier ckpt .

python3 train.py --gpus $GPUS --cfg $CFG

Pour choisir les GPU à utiliser, vous pouvez soit faire --gpus 0-7 , soit --gpus 0,2,4,6 .

Par exemple, vous pouvez commencer par nos configurations fournies:

Train MobileNetv2Dilated + C1_Deepsup

python3 train.py --gpus GPUS --cfg config/ade20k-mobilenetv2dilated-c1_deepsup.yaml

Train Resnet50Dilated + ppm_deepsup

python3 train.py --gpus GPUS --cfg config/ade20k-resnet50dilated-ppm_deepsup.yaml

Train upernet101

python3 train.py --gpus GPUS --cfg config/ade20k-resnet101-upernet.yaml

Vous pouvez également remplacer les options dans la ligne de commande, par exemple python3 train.py TRAIN.num_epoch 10 .

Évaluation

Évaluez un modèle formé sur l'ensemble de validation. Ajouter VAL.visualize True dans l'argument aux visualisations de sortie comme indiqué dans Teaser.

Par exemple:

Évaluer MobileNetv2Dilated + C1_Deepsup

python3 eval_multipro.py --gpus GPUS --cfg config/ade20k-mobilenetv2dilated-c1_deepsup.yaml

Évaluez Resnet50Dilated + PPM_DEPSUP

python3 eval_multipro.py --gpus GPUS --cfg config/ade20k-resnet50dilated-ppm_deepsup.yaml

Évaluer upernet101

python3 eval_multipro.py --gpus GPUS --cfg config/ade20k-resnet101-upernet.yaml

Intégration avec d'autres projets

Cette bibliothèque peut être installée via pip pour s'intégrer facilement à une autre base de code

pip install git+https://github.com/CSAILVision/semantic-segmentation-pytorch.git@master

Maintenant, cette bibliothèque peut facilement être consommée par programme. Par exemple

 from mit_semseg . config import cfg
from mit_semseg . dataset import TestDataset
from mit_semseg . models import ModelBuilder , SegmentationModule

Référence

Si vous trouvez le code ou les modèles pré-formés utiles, veuillez citer les articles suivants:

Compréhension sémantique des scènes via un ensemble de données ADE20K. B. Zhou, H. Zhao, X. Puig, T. Xiao, S. Fidler, A. Barriuso et A. Torralba. International Journal on Computer Vision (IJCV), 2018. (https://arxiv.org/pdf/1608.05442.pdf)

 @article{zhou2018semantic,
  title={Semantic understanding of scenes through the ade20k dataset},
  author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Xiao, Tete and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
  journal={International Journal on Computer Vision},
  year={2018}
}

Analyse de scène via un ensemble de données ADE20K. B. Zhou, H. Zhao, X. Puig, S. Fidler, A. Barriuso et A. Torralba. Vision par ordinateur et reconnaissance des modèles (CVPR), 2017. (http://people.csail.mit.edu/bzhou/publication/scene-parse-camera-ready.pdf)

 @inproceedings{zhou2017scene,
    title={Scene Parsing through ADE20K Dataset},
    author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
    booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
    year={2017}
}

Développer

Informations supplémentaires

Version 1.0.0
Type Python
Date de mise à jour 2025-07-14
taille 1.46MB
Provenant de Github

Applications connexes

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ToDo Co

Python

1.0.0
Python Portfolio

Python
datamule python

Python
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout