Descarga de yolact - Descargar el código fuente yolact

UU O NYLY L OOK A T C OEFFICIEN T S

    ██╗   ██╗ ██████╗ ██╗      █████╗  ██████╗████████╗
    ╚██╗ ██╔╝██╔═══██╗██║     ██╔══██╗██╔════╝╚══██╔══╝
     ╚████╔╝ ██║   ██║██║     ███████║██║        ██║   
      ╚██╔╝  ██║   ██║██║     ██╔══██║██║        ██║   
       ██║   ╚██████╔╝███████╗██║  ██║╚██████╗   ██║   
       ╚═╝    ╚═════╝ ╚══════╝╚═╝  ╚═╝ ╚═════╝   ╚═╝

Un modelo simple y totalmente convolucional para la segmentación de instancias en tiempo real. Este es el código para nuestros documentos:

Yolact: segmentación de instancias en tiempo real
Yolact ++: mejor segmentación de instancias en tiempo real

Yolact ++ (V1.2) ¡Lanzado! (ChangeLog)

El modelo RESNET50 de Yolact ++ se ejecuta a 33.5 fps en un Titan XP y logra el mapa 34.1 en test-dev de Coco (consulte nuestro documento de la revista aquí).

Para usar Yolact ++, asegúrese de compilar el código DCNV2. (Ver instalación)

Para una demostración en tiempo real, mira nuestro video ICCV:

Algunos ejemplos de nuestro modelo base de yolact (33.5 fps en un mapa Titan XP y 29.8 en Coco's test-dev ):

Ejemplo 0

Ejemplo 1

Ejemplo 2

Instalación

Clone este repositorio e ingrese:

git clone https://github.com/dbolya/yolact.git
cd yolact

Configure el entorno utilizando uno de los siguientes métodos:
- Usando Anaconda
  - Ejecutar conda env create -f environment.yml
- Manualmente con pip
  - Configure un entorno Python3 (por ejemplo, usando Virtenv).
  - Instale Pytorch 1.0.1 (o superior) y TorchVision.
  - Instale algunos otros paquetes:
```
 # Cython needs to be installed before pycocotools
pip install cython
pip install opencv-python pillow pycocotools matplotlib 
```
Si desea entrenar Yolact, descargue el conjunto de datos de Coco y las anotaciones 2014/2017. Tenga en cuenta que este script llevará un tiempo y arrojará 21 GB de archivos en ./data/coco .
```
sh data/scripts/COCO.sh
```
Si desea evaluar yolact en test-dev , descargue test-dev con este script.
```
sh data/scripts/COCO_test.sh
```
Si desea usar Yolact ++, compile capas convolucionales deformables (de DCNV2). Asegúrese de tener el último kit de herramientas CUDA instalado desde el sitio web de NVIDIA.
```
 cd external/DCNv2
python setup.py build develop
```

Evaluación

Aquí están nuestros modelos Yolact (lanzados el 5 de abril de 2019) junto con su FPS en un Titan XP y MAP en test-dev :

Tamaño de imagen	Columna vertebral	FPS	mapa	Pesas
550	Resnet50-fpn	42.5	28.2	yolact_resnet50_54_800000.pth	Espejo
550	Darknet53-FPN	40.0	28.7	yolact_darknet53_54_800000.pth	Espejo
550	Resnet101-fpn	33.5	29.8	yolact_base_54_800000.pth	Espejo
700	Resnet101-fpn	23.6	31.2	yolact_im700_54_800000.pth	Espejo

Modelos Yolact ++ (lanzado el 16 de diciembre de 2019):

Tamaño de imagen	Columna vertebral	FPS	mapa	Pesas
550	Resnet50-fpn	33.5	34.1	yolact_plus_resnet50_54_800000.pth	Espejo
550	Resnet101-fpn	27.3	34.6	yolact_plus_base_54_800000.pth	Espejo

Para evaluar el modelo, coloque el archivo de pesas correspondientes en el directorio ./weights y ejecute uno de los siguientes comandos. El nombre de cada configuración es todo antes de los números en el nombre del archivo (por ejemplo, yolact_base para yolact_base_54_800000.pth ).

Resultados cuantitativos en Coco

 # Quantitatively evaluate a trained model on the entire validation set. Make sure you have COCO downloaded as above.
# This should get 29.92 validation mask mAP last time I checked.
python eval.py --trained_model=weights/yolact_base_54_800000.pth

# Output a COCOEval json to submit to the website or to use the run_coco_eval.py script.
# This command will create './results/bbox_detections.json' and './results/mask_detections.json' for detection and instance segmentation respectively.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --output_coco_json

# You can run COCOEval on the files created in the previous command. The performance should match my implementation in eval.py.
python run_coco_eval.py

# To output a coco json file for test-dev, make sure you have test-dev downloaded from above and go
python eval.py --trained_model=weights/yolact_base_54_800000.pth --output_coco_json --dataset=coco2017_testdev_dataset

Resultados cualitativos en Coco

 # Display qualitative results on COCO. From here on I'll use a confidence threshold of 0.15.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --display

Benchmarking en Coco

 # Run just the raw model on the first 1k images of the validation set
python eval.py --trained_model=weights/yolact_base_54_800000.pth --benchmark --max_images=1000

Imágenes

 # Display qualitative results on the specified image.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --image=my_image.png

# Process an image and save it to another file.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --image=input_image.png:output_image.png

# Process a whole folder of images.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --images=path/to/input/folder:path/to/output/folder

Video

 # Display a video in real-time. "--video_multiframe" will process that many frames at once for improved performance.
# If you want, use "--display_fps" to draw the FPS directly on the frame.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --video_multiframe=4 --video=my_video.mp4

# Display a webcam feed in real-time. If you have multiple webcams pass the index of the webcam you want instead of 0.
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --video_multiframe=4 --video=0

# Process a video and save it to another file. This uses the same pipeline as the ones above now, so it's fast!
python eval.py --trained_model=weights/yolact_base_54_800000.pth --score_threshold=0.15 --top_k=15 --video_multiframe=4 --video=input_video.mp4:output_video.mp4

Como puede ver, eval.py puede hacer un montón de cosas. Ejecute el comando --help para ver todo lo que puede hacer.

python eval.py --help

Capacitación

Por defecto, entrenamos en Coco. Asegúrese de descargar todo el conjunto de datos utilizando los comandos anteriores.

Para entrenar, tome un modelo de pretenerse ImageNet y póngalo en ./weights .
- Para resnet101, descargue resnet101_reducedfc.pth desde aquí.
- Para resnet50, descargue resnet50-19c8e357.pth desde aquí.
- Para DarkNet53, descargue darknet53.pth desde aquí.
Ejecute uno de los comandos de entrenamiento a continuación.
- Tenga en cuenta que puede presionar CTRL+C mientras se capacita y guardará un archivo *_interrupt.pth en la iteración actual.
- Todos los pesos se guardan en el directorio ./weights de forma predeterminada con el nombre del archivo <config>_<epoch>_<iter>.pth .

 # Trains using the base config with a batch size of 8 (the default).
python train.py --config=yolact_base_config

# Trains yolact_base_config with a batch_size of 5. For the 550px models, 1 batch takes up around 1.5 gigs of VRAM, so specify accordingly.
python train.py --config=yolact_base_config --batch_size=5

# Resume training yolact_base with a specific weight file and start from the iteration specified in the weight file's name.
python train.py --config=yolact_base_config --resume=weights/yolact_base_10_32100.pth --start_iter=-1

# Use the help option to see a description of all available command line arguments
python train.py --help

Soporte multi-GPU

Yolact ahora admite múltiples GPU sin problemas durante el entrenamiento:

Antes de ejecutar cualquiera de los scripts, ejecute: export CUDA_VISIBLE_DEVICES=[gpus]
- Donde debe reemplazar [GPU] con una lista separada por comas del índice de cada GPU que desea usar (por ejemplo, 0,1,2,3).
- Aún debería hacer esto si solo use 1 GPU.
- Puede verificar los índices de sus GPU con nvidia-smi .
Luego, simplemente configure el tamaño de lote en 8*num_gpus con los comandos de entrenamiento anteriores. El script de capacitación escalará automáticamente los hiperparámetros a los valores correctos.
- Si tiene memoria de sobra, puede aumentar aún más el tamaño del lote, pero manténgalo un múltiplo de la cantidad de GPU que está utilizando.
- Si desea asignar las imágenes por GPU específicas para diferentes GPU, puede usar --batch_alloc=[alloc] donde [Alloc] es una lista de coma sepe que contiene el número de imágenes en cada GPU. Esto debe sumar a batch_size .

Explotación florestal

Yolact ahora registra información de capacitación y validación de forma predeterminada. Puede deshabilitar esto con --no_log . Próximamente vendrá una guía sobre cómo visualizar estos registros, pero ahora puede ver LogVizualizer en utils/logger.py para obtener ayuda.

Pascal SBD

También incluimos una configuración para el entrenamiento sobre anotaciones PASCAL SBD (para experimentación rápida o comparación con otros métodos). Para entrenar en Pascal SBD, continúe con los siguientes pasos:

Descargue el conjunto de datos desde aquí. Es el primer enlace en la sección de "Descripción general" superior (y el archivo se llama benchmark.tgz ).
Extraiga el conjunto de datos en algún lugar. En el conjunto de datos debe haber una carpeta llamada dataset/img . Cree el directorio ./data/sbd (donde . Es la raíz de Yolact) y copie dataset/img a ./data/sbd/img .
Descargue las anotaciones de estilo Coco desde aquí.
Extraiga las anotaciones en ./data/sbd/ .
Ahora puede entrenar usando --config=yolact_resnet50_pascal_config . Verifique esa configuración para ver cómo extenderla a otros modelos.

Pronto automatizaré todo esto con un script, no te preocupes. Además, si desea el script que usé para convertir las anotaciones, lo puse ./scripts/convert_sbd.py , pero tendrá que verificar cómo funciona para poder usarlo porque en realidad no recuerdo en este momento.

Si desea verificar nuestros resultados, puede descargar nuestros pesos yolact_resnet50_pascal_config desde aquí. Este modelo debe obtener 72.3 Mask AP_50 y 56.2 Mask AP_70. Tenga en cuenta que el "AP" AP no es lo mismo que el AP "Vol" informado en otros documentos para Pascal (usan un promedio de los umbrales de 0.1 - 0.9 en incrementos de 0.1 en lugar de lo que Coco usa).

Conjuntos de datos personalizados

También puede entrenar en su propio conjunto de datos siguiendo estos pasos:

Cree un archivo de anotación JSON de detección de objetos de estilo Coco para su conjunto de datos. La especificación para esto se puede encontrar aquí. Tenga en cuenta que no usamos algunos campos, por lo que se puede omitir lo siguiente:
- info
- liscense
- Bajo image : license, flickr_url, coco_url, date_captured
- categories (usamos nuestro propio formato para categorías, ver más abajo)
Cree una definición para su conjunto de datos en dataset_base en data/config.py (consulte los comentarios en dataset_base para obtener una explicación de cada campo):

 my_custom_dataset = dataset_base . copy ({
    'name' : 'My Dataset' ,

    'train_images' : 'path_to_training_images' ,
    'train_info' :   'path_to_training_annotation' ,

    'valid_images' : 'path_to_validation_images' ,
    'valid_info' :   'path_to_validation_annotation' ,

    'has_gt' : True ,
    'class_names' : ( 'my_class_id_1' , 'my_class_id_2' , 'my_class_id_3' , ...)
})

Un par de cosas a tener en cuenta:
- Las ID de clase en el archivo de anotación deben comenzar en 1 y aumentar secuencialmente en el orden de class_names . Si este no es el caso de su archivo de anotación (como en Coco), consulte el campo label_map en dataset_base .
- Si no desea crear una división de validación, use la misma ruta de imagen y el archivo de anotaciones para la validación. De forma predeterminada (ver python train.py --help ), train.py emitirá el mapa de validación para las primeras 5000 imágenes en el conjunto de datos cada 2 épocas.
Finalmente, en yolact_base_config en el mismo archivo, cambie el valor para 'dataset' a 'my_custom_dataset' o lo que haya llamado el objeto de configuración anterior. Luego puede usar cualquiera de los comandos de capacitación en la sección anterior.

Creación de un conjunto de datos personalizado desde cero

Vea esta buena publicación de @AMIT12690 para obtener consejos sobre cómo anotar un conjunto de datos personalizado y prepararlo para usar con Yolact.

Citación

Si usa yolact o esta base de código en su trabajo, cite

 @inproceedings{yolact-iccv2019,
  author    = {Daniel Bolya and Chong Zhou and Fanyi Xiao and Yong Jae Lee},
  title     = {YOLACT: {Real-time} Instance Segmentation},
  booktitle = {ICCV},
  year      = {2019},
}

Para yolact ++, por favor cita

 @article{yolact-plus-tpami2020,
  author  = {Daniel Bolya and Chong Zhou and Fanyi Xiao and Yong Jae Lee},
  journal = {IEEE Transactions on Pattern Analysis and Machine Intelligence}, 
  title   = {YOLACT++: Better Real-time Instance Segmentation}, 
  year    = {2020},
}