Descarga semantic segmentation - Descargar código fuente semantic segmentation

semantic segmentation

Pitón

v0.2.6

Descargar

Segmentación semántica

Modelos de segmentación semántica SOTA fácil de usar y personalizables con abundantes conjuntos de datos en Pytorch

bandera

¡Gran retrabajo! Manténganse al tanto...

Se ha cambiado mucho desde 2022, hoy en día hay incluso modelos de segmentación del mundo abierto (segmento de cualquier cosa). Sin embargo, los modelos de segmentación tradicionales todavía tienen la demanda de casos de alta precisión y uso personalizado. Este repositorio se actualizará de acuerdo con la nueva versión de Pytorch, modelos actualizados y documentos sobre cómo usar con un conjunto de datos personalizado, etc.

Fecha de lanzamiento esperada -> mayo de 2024

Características planificadas:

Reelaborar en tuberías de capacitación completa
Modelo de referencia previamente capacitado
Nuevas ideas actualizadas
Fácil integración con modelos de columna vertebral SOTA (con tutoriales)
Tutorial para conjunto de datos personalizado
Capacitación distribuida

Las características actuales se descartarán:

Se reducirá la cantidad de conjuntos de datos proporcionados. Pero en cambio, los representantes se mantendrán con un tutorial para el conjunto de datos personalizado.
La cantidad de modelos proporcionados se reducirá. En cambio, se mantendrán valiosos trucos y módulos y se pueden integrar fácilmente con cualquier modelo.
Los aumentos se reemplazarán por transformaciones oficiales de VisionV2.
Conversión e inferencia con otros marcos

Características

Aplicable a las siguientes tareas:
- Análisis de escena
- Análisis humano
- Análisis de la cara
- Segmentación de imágenes médicas (próximamente)
20+ conjuntos de datos
Más de 15 bocanvías de SOTA
Más de 10 modelos de segmentación semántica SOTA
Pytorch, ONNX, TFLITE, OpenVino Export e Inferencias

Zoológico modelo

Columna vertebral soportada:

Resnet (CVPR 2016)
Resnetd (ARXIV 2018)
MobileNetV2 (CVPR 2018)
MobileNetv3 (ICCV 2019)
MIT (Neurips 2021)
REST (Neurips 2021)
Micronet (ICCV 2021)
Resnet+ (ARXIV 2021)
PVTV2 (CVMJ 2022)
Foolformer (CVPR 2022)
ConvNext (CVPR 2022)
Uniformador (ARXIV 2022)
Van (Arxiv 2022)
Davit (ARXIV 2022)

Cabezas/métodos compatibles:

FCN (CVPR 2015)
Upernet (ECCV 2018)
Bisenetv1 (ECCV 2018)
FPN (CVPR 2019)
SFNET (ECCV 2020)
Segformer (Neurips 2021)
FAPN (ICCV 2021)
Condnet (IEEE SPL 2021)
Light-Ham (ICLR 2021)
Lawin (ARXIV 2022)
Topformer (CVPR 2022)

Modelos independientes compatibles:

Bisenetv2 (IJCV 2021)
DDRNET (ARXIV 2021)

Módulos compatibles:

PPM (CVPR 2017)
PSA (ARXIV 2021)

Consulte los modelos para puntos de referencia y modelos previamente capacitados disponibles.

Y verifique las columnas de los bocanes de apoyo.

Notas: La mayoría de los métodos no tienen modelos previamente capacitados. Es muy difícil combinar diferentes modelos con pesos previamente capacitados en un repositorio y un recurso limitado para volver a entrenarme.

Conjuntos de datos compatibles

Analización de la escena:

ADE20K
Paisajes urbanos
Tortuga de coco
Camión
Contexto pascal
Vistas mapilares
Sol rgb-d

Analizador humano:

MHPV2
MHPV1
LABIO
CCIHP
CIHP
ATR

Analización de la cara:

Helen
Lapa
Ibugmask
Celebamaskhq
Facesintética

Otros:

Suim

Consulte los conjuntos de datos para obtener más detalles y preparación de conjuntos de datos.

Aumentos disponibles (haga clic para expandir)

Consulte el cuaderno aquí para probar los efectos de aumento.

Transformaciones de nivel de píxel:

Colorjitter (brillo, contraste, saturación, tono)
Gamma, nitidez, autocontraste, igualar, postergue
Gaussianblur, escala de grises

Transformaciones de nivel espacial:

Affine, Randomrotation
Horizontalflip, verticalflip
Centrocrop, randomcrop
Almohadilla, resizePad, cambia de tamaño
Crop randomressed

Uso

Instalación

Python> = 3.6
antorcha> = 1.8.1
Visación de antorchas> = 0.9.1

Luego, clone el repositorio e instale el proyecto con:

$ git clone https://github.com/sithu31296/semantic-segmentation
$ cd semantic-segmentation
$ pip install -e .

Configuración (haga clic para expandir)

Cree un archivo de configuración en configs . La configuración de muestra para el conjunto de datos ADE20K se puede encontrar aquí. Luego edite los campos que piense si es necesario. Este archivo de configuración es necesario para todos los scripts de capacitación, evaluación y predicción.

Capacitación (haga clic para expandir)

Para entrenar con una sola GPU:

$ python tools/train.py --cfg configs/CONFIG_FILE.yaml

Para entrenar con múltiples GPU, configure el campo DDP en el archivo de configuración en true y ejecute lo siguiente:

$ python -m torch.distributed.launch --nproc_per_node=2 --use_env tools/train.py --cfg configs/ < CONFIG_FILE_NAME > .yaml

Evaluación (haga clic para expandir)

Asegúrese de establecer MODEL_PATH del archivo de configuración en su directorio de modelos capacitado.

$ python tools/val.py --cfg configs/ < CONFIG_FILE_NAME > .yaml

Para evaluar con múltiples escala y FLIP, cambie el campo ENABLE en MSF a true y ejecute el mismo comando que el anterior.

Inferencia

Para hacer una inferencia, edite los parámetros del archivo de configuración desde abajo.

Cambiar MODEL >> NAME y BACKBONE a su modelo de pretrado deseado.
Cambie DATASET >> NAME al nombre del conjunto de datos dependiendo del modelo previamente petrano.
Establezca TEST >> MODEL_PATH a los pesos previos al año del modelo de prueba.
Cambie TEST >> FILE a la ruta de la carpeta de archivo o imagen que desea probar.
Los resultados de las pruebas se guardarán en SAVE_DIR .

 # # example using ade20k pretrained models
$ python tools/infer.py --cfg configs/ade20k.yaml

Resultados de prueba de ejemplo (Segformer-B2):

test_result

Convertir a otros marcos (ONNX, Coreml, OpenVino, Tflite)

Para convertir a ONNX y Coreml, ejecute:

$ python tools/export.py --cfg configs/ < CONFIG_FILE_NAME > .yaml

Para convertir a OpenVino y Tflite, vea Torch_optimize.

Inferencia (ONNX, OpenVino, Tflite)

 # # ONNX Inference
$ python scripts/onnx_infer.py --model < ONNX_MODEL_PATH > --img-path < TEST_IMAGE_PATH >

# # OpenVINO Inference
$ python scripts/openvino_infer.py --model < OpenVINO_MODEL_PATH > --img-path < TEST_IMAGE_PATH >

# # TFLite Inference
$ python scripts/tflite_infer.py --model < TFLite_MODEL_PATH > --img-path < TEST_IMAGE_PATH >

Referencias (haga clic para expandir)

https://github.com/coinceung/bisenet
https://github.com/open-mmlab/mmsegmentation
https://github.com/rwightman/pytorch-image-models

Citas (haga clic para expandir)

 @article{xie2021segformer,
  title={SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers},
  author={Xie, Enze and Wang, Wenhai and Yu, Zhiding and Anandkumar, Anima and Alvarez, Jose M and Luo, Ping},
  journal={arXiv preprint arXiv:2105.15203},
  year={2021}
}

@misc{xiao2018unified,
  title={Unified Perceptual Parsing for Scene Understanding}, 
  author={Tete Xiao and Yingcheng Liu and Bolei Zhou and Yuning Jiang and Jian Sun},
  year={2018},
  eprint={1807.10221},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@article{hong2021deep,
  title={Deep Dual-resolution Networks for Real-time and Accurate Semantic Segmentation of Road Scenes},
  author={Hong, Yuanduo and Pan, Huihui and Sun, Weichao and Jia, Yisong},
  journal={arXiv preprint arXiv:2101.06085},
  year={2021}
}

@misc{zhang2021rest,
  title={ResT: An Efficient Transformer for Visual Recognition}, 
  author={Qinglong Zhang and Yubin Yang},
  year={2021},
  eprint={2105.13677},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@misc{huang2021fapn,
  title={FaPN: Feature-aligned Pyramid Network for Dense Image Prediction}, 
  author={Shihua Huang and Zhichao Lu and Ran Cheng and Cheng He},
  year={2021},
  eprint={2108.07058},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@misc{wang2021pvtv2,
  title={PVTv2: Improved Baselines with Pyramid Vision Transformer}, 
  author={Wenhai Wang and Enze Xie and Xiang Li and Deng-Ping Fan and Kaitao Song and Ding Liang and Tong Lu and Ping Luo and Ling Shao},
  year={2021},
  eprint={2106.13797},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@article{Liu2021PSA,
  title={Polarized Self-Attention: Towards High-quality Pixel-wise Regression},
  author={Huajun Liu and Fuqiang Liu and Xinyi Fan and Dong Huang},
  journal={Arxiv Pre-Print arXiv:2107.00782 },
  year={2021}
}

@misc{chao2019hardnet,
  title={HarDNet: A Low Memory Traffic Network}, 
  author={Ping Chao and Chao-Yang Kao and Yu-Shan Ruan and Chien-Hsiang Huang and Youn-Long Lin},
  year={2019},
  eprint={1909.00948},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@inproceedings{sfnet,
  title={Semantic Flow for Fast and Accurate Scene Parsing},
  author={Li, Xiangtai and You, Ansheng and Zhu, Zhen and Zhao, Houlong and Yang, Maoke and Yang, Kuiyuan and Tong, Yunhai},
  booktitle={ECCV},
  year={2020}
}

@article{Li2020SRNet,
  title={Towards Efficient Scene Understanding via Squeeze Reasoning},
  author={Xiangtai Li and Xia Li and Ansheng You and Li Zhang and Guang-Liang Cheng and Kuiyuan Yang and Y. Tong and Zhouchen Lin},
  journal={ArXiv},
  year={2020},
  volume={abs/2011.03308}
}

@ARTICLE{Yucondnet21,
  author={Yu, Changqian and Shao, Yuanjie and Gao, Changxin and Sang, Nong},
  journal={IEEE Signal Processing Letters}, 
  title={CondNet: Conditional Classifier for Scene Segmentation}, 
  year={2021},
  volume={28},
  number={},
  pages={758-762},
  doi={10.1109/LSP.2021.3070472}
}

@misc{yan2022lawin,
  title={Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention}, 
  author={Haotian Yan and Chuang Zhang and Ming Wu},
  year={2022},
  eprint={2201.01615},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@misc{yu2021metaformer,
  title={MetaFormer is Actually What You Need for Vision}, 
  author={Weihao Yu and Mi Luo and Pan Zhou and Chenyang Si and Yichen Zhou and Xinchao Wang and Jiashi Feng and Shuicheng Yan},
  year={2021},
  eprint={2111.11418},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@misc{wightman2021resnet,
  title={ResNet strikes back: An improved training procedure in timm}, 
  author={Ross Wightman and Hugo Touvron and Hervé Jégou},
  year={2021},
  eprint={2110.00476},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@misc{liu2022convnet,
  title={A ConvNet for the 2020s}, 
  author={Zhuang Liu and Hanzi Mao and Chao-Yuan Wu and Christoph Feichtenhofer and Trevor Darrell and Saining Xie},
  year={2022},
  eprint={2201.03545},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

@misc{li2022uniformer,
  title={UniFormer: Unifying Convolution and Self-attention for Visual Recognition}, 
  author={Kunchang Li and Yali Wang and Junhao Zhang and Peng Gao and Guanglu Song and Yu Liu and Hongsheng Li and Yu Qiao},
  year={2022},
  eprint={2201.09450},
  archivePrefix={arXiv},
  primaryClass={cs.CV}
}

Expandir

Información adicional

Versión v0.2.6
Tipo Pitón
Fecha de actualización 2025-07-12
tamaño 2.32MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ToDo Co

Pitón

1.0.0
Python Portfolio

Pitón
Herramienta de gráficos de datos de código abierto Redash v24.10.0

Pitón

24.10.0
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo