Resultados | Actualizaciones | Uso | TODO | Reconocer
Esta rama contiene la implementación de Pytorch de VitPose: Simple Vision Transformer Basline para la estimación de pose humana y el modelo de base de transformadores de visión de visión para la estimación genérica de pose corporal. Obtiene 81.1 AP en el conjunto de pruebas de Test Keypoint de MS Coco.

Utilizando los resultados de la detección de un detector que obtiene 56 mapa en persona. Las configuraciones aquí son para capacitación y prueba.
Con decodificador clásico
| Modelo | Predicha | Resolución | AP | Arkansas | configuración | registro | peso |
|---|---|---|---|---|---|---|---|
| Vitpose-s | Mae | 256x192 | 73.8 | 79.2 | configuración | registro | Onedrive |
| Vitpose-B | Mae | 256x192 | 75.8 | 81.1 | configuración | registro | Onedrive |
| Vitpose-l | Mae | 256x192 | 78.3 | 83.5 | configuración | registro | Onedrive |
| Vitpose-H | Mae | 256x192 | 79.1 | 84.1 | configuración | registro | Onedrive |
Con decodificador simple
| Modelo | Predicha | Resolución | AP | Arkansas | configuración | registro | peso |
|---|---|---|---|---|---|---|---|
| Vitpose-s | Mae | 256x192 | 73.5 | 78.9 | configuración | registro | Onedrive |
| Vitpose-B | Mae | 256x192 | 75.5 | 80.9 | configuración | registro | Onedrive |
| Vitpose-l | Mae | 256x192 | 78.2 | 83.4 | configuración | registro | Onedrive |
| Vitpose-H | Mae | 256x192 | 78.9 | 84.0 | configuración | registro | Onedrive |
Nota * Puede existir imágenes duplicadas en el conjunto de capacitación CrowdPose y las imágenes de validación en otros conjuntos de datos, como se discutió en el número 24. Tenga cuidado al usar estos modelos para la evaluación. Proporcionamos los resultados sin el conjunto de datos de la copa como referencia.
Resultados en MS Coco Val set
Utilizando los resultados de la detección de un detector que obtiene 56 mapa en persona. Tenga en cuenta que las configuraciones aquí son solo para evaluación.
| Modelo | Conjunto de datos | Resolución | AP | Arkansas | configuración | peso |
|---|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 77.1 | 82.2 | configuración | Onedrive |
| Vitpose-l | Coco+AIC+MPII | 256x192 | 78.7 | 83.8 | configuración | Onedrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 79.5 | 84.5 | configuración | Onedrive |
| Vitpose-G | Coco+AIC+MPII | 576x432 | 81.0 | 85.6 | ||
| Vitpose-b* | Coco+AIC+MPII+CrowdPose | 256x192 | 77.5 | 82.6 | configuración | Onedrive |
| Vitpose-l* | Coco+AIC+MPII+CrowdPose | 256x192 | 79.1 | 84.1 | configuración | Onedrive |
| Vitpose-h* | Coco+AIC+MPII+CrowdPose | 256x192 | 79.8 | 84.8 | configuración | Onedrive |
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 75.8 | 82.6 | configuración | registro | Onedrive |
| Vitpose+-b | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 77.0 | 82.6 | configuración | registro | Onedrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 78.6 | 84.1 | configuración | registro | Onedrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 79.4 | 84.8 | configuración | registro | Onedrive |
Resultados en el conjunto de pruebas Ochuman
Usando cajas delimitadoras de REBELTTRUTH. Tenga en cuenta que las configuraciones aquí son solo para evaluación.
| Modelo | Conjunto de datos | Resolución | AP | Arkansas | configuración | peso |
|---|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 88.0 | 89.6 | configuración | Onedrive |
| Vitpose-l | Coco+AIC+MPII | 256x192 | 90.9 | 92.2 | configuración | Onedrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 90.9 | 92.3 | configuración | Onedrive |
| Vitpose-G | Coco+AIC+MPII | 576x432 | 93.3 | 94.3 | ||
| Vitpose-b* | Coco+AIC+MPII+CrowdPose | 256x192 | 88.2 | 90.0 | configuración | Onedrive |
| Vitpose-l* | Coco+AIC+MPII+CrowdPose | 256x192 | 91.5 | 92.8 | configuración | Onedrive |
| Vitpose-h* | Coco+AIC+MPII+CrowdPose | 256x192 | 91.6 | 92.8 | configuración | Onedrive |
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 78.4 | 80.6 | configuración | registro | Onedrive |
| Vitpose+-b | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 82.6 | 84.8 | configuración | registro | Onedrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 85.7 | 87.5 | configuración | registro | Onedrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 85.7 | 87.4 | configuración | registro | Onedrive |
Resultados en MPII Val set
Usando cajas delimitadoras de REBELTTRUTH. Tenga en cuenta que las configuraciones aquí son solo para evaluación. La métrica es PCKH.
| Modelo | Conjunto de datos | Resolución | Significar | configuración | peso |
|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 93.3 | configuración | Onedrive |
| Vitpose-l | Coco+AIC+MPII | 256x192 | 94.0 | configuración | Onedrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 94.1 | configuración | Onedrive |
| Vitpose-G | Coco+AIC+MPII | 576x432 | 94.3 | ||
| Vitpose-b* | Coco+AIC+MPII+CrowdPose | 256x192 | 93.4 | configuración | Onedrive |
| Vitpose-l* | Coco+AIC+MPII+CrowdPose | 256x192 | 93.9 | configuración | Onedrive |
| Vitpose-h* | Coco+AIC+MPII+CrowdPose | 256x192 | 94.1 | configuración | Onedrive |
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 92.7 | configuración | registro | Onedrive |
| Vitpose+-b | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 92.8 | configuración | registro | Onedrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 94.0 | configuración | registro | Onedrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 94.2 | configuración | registro | Onedrive |
Resultados en el conjunto de pruebas de AI Challenger
Usando cajas delimitadoras de REBELTTRUTH. Tenga en cuenta que las configuraciones aquí son solo para evaluación.
| Modelo | Conjunto de datos | Resolución | AP | Arkansas | configuración | peso |
|---|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 32.0 | 36.3 | configuración | Onedrive |
| Vitpose-l | Coco+AIC+MPII | 256x192 | 34.5 | 39.0 | configuración | Onedrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 35.4 | 39.9 | configuración | Onedrive |
| Vitpose-G | Coco+AIC+MPII | 576x432 | 43.2 | 47.1 | ||
| Vitpose-b* | Coco+AIC+MPII+CrowdPose | 256x192 | 31.9 | 36.3 | configuración | Onedrive |
| Vitpose-l* | Coco+AIC+MPII+CrowdPose | 256x192 | 34.6 | 39.0 | configuración | Onedrive |
| Vitpose-h* | Coco+AIC+MPII+CrowdPose | 256x192 | 35.3 | 39.8 | configuración | Onedrive |
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 29.7 | 34.3 | configuración | registro | Onedrive |
| Vitpose+-b | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 31.8 | 36.3 | configuración | registro | Onedrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 34.3 | 38.9 | configuración | registro | Onedrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 34.8 | 39.1 | configuración | registro | Onedrive |
Resultados en el conjunto de pruebas de posposición
Uso del detector humano YOLOV3. Tenga en cuenta que las configuraciones aquí son solo para evaluación.
| Modelo | Conjunto de datos | Resolución | AP | AP (H) | configuración | peso |
|---|---|---|---|---|---|---|
| Vitpose-b* | Coco+AIC+MPII+CrowdPose | 256x192 | 74.7 | 63.3 | configuración | Onedrive |
| Vitpose-l* | Coco+AIC+MPII+CrowdPose | 256x192 | 76.6 | 65.9 | configuración | Onedrive |
| Vitpose-h* | Coco+AIC+MPII+CrowdPose | 256x192 | 76.3 | 65.6 | configuración | Onedrive |
Resultados en el conjunto de pruebas AP-10K
| Modelo | Conjunto de datos | Resolución | AP | configuración | peso |
|---|---|---|---|---|---|
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 71.4 | configuración | registro | Onedrive |
| Vitpose+-b | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 74.5 | configuración | registro | Onedrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 80.4 | configuración | registro | Onedrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 82.4 | configuración | registro | Onedrive |
Resultados en APT-36K Val set
| Modelo | Conjunto de datos | Resolución | AP | configuración | peso |
|---|---|---|---|---|---|
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 74.2 | configuración | registro | Onedrive |
| Vitpose+-b | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 75.9 | configuración | registro | Onedrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 80.8 | configuración | registro | Onedrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 82.3 | configuración | registro | Onedrive |
| Modelo | Conjunto de datos | Resolución | AP | configuración | peso |
|---|---|---|---|---|---|
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 54.4 | configuración | registro | Onedrive |
| Vitpose+-b | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 57.4 | configuración | registro | Onedrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 60.6 | configuración | registro | Onedrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+WholeBody | 256x192 | 61.2 | configuración | registro | Onedrive |
| Modelo | Conjunto de datos | Resolución | AUC | configuración | peso |
|---|---|---|---|---|---|
| Vitpose+-s | Coco+AIC+MPII+WholeBody | 256x192 | 86.5 | configuración | Muy pronto |
| Vitpose+-b | Coco+AIC+MPII+WholeBody | 256x192 | 87.0 | configuración | Muy pronto |
| Vitpose+-l | Coco+AIC+MPII+WholeBody | 256x192 | 87.5 | configuración | Muy pronto |
| Vitpose+-h | Coco+AIC+MPII+WholeBody | 256x192 | 87.6 | configuración | Muy pronto |
[2023-01-10] ¡Actualice VitSpose+! Utiliza estrategias MOE para tratar conjuntamente con tareas de estimación humanas, animales y integrales plantea.
[2022-05-24] Cargue el código de entrenamiento de una sola tarea, los modelos previamente capacitados de tareas únicas y los modelos previos a la prisión de tareas múltiples.
[2022-05-06] ¡Cargue los registros para los modelos base, grandes y enormes!
[2022-04-27] ¡Nuestra vitpose con Vitae-G obtiene 81.1 AP en el set de prueba de prueba de coco!
Las aplicaciones del transformador Vitae incluyen: Clasificación de imágenes | Detección de objetos | Segmentación semántica | Segmentación de pose de animales | Teled remota | estera | VSA | Vitdet
Usamos Pytorch 1.9.0 o NGC Docker 21.06, y MMCV 1.3.9 para los experimentos.
git clone https://github.com/open-mmlab/mmcv.git
cd mmcv
git checkout v1.3.9
MMCV_WITH_OPS=1 pip install -e .
cd ..
git clone https://github.com/ViTAE-Transformer/ViTPose.git
cd ViTPose
pip install -v -e .Después de instalar los dos repositorios, instale Timm y Einops, es decir,
pip install timm==0.4.9 einopsDespués de descargar los modelos previos a la aparición, realice los experimentos ejecutando
# for single machine
bash tools/dist_train.sh < Config PATH > < NUM GPUs > --cfg-options model.pretrained= < Pretrained PATH > --seed 0
# for multiple machines
python -m torch.distributed.launch --nnodes < Num Machines > --node_rank < Rank of Machine > --nproc_per_node < GPUs Per Machine > --master_addr < Master Addr > --master_port < Master Port > tools/train.py < Config PATH > --cfg-options model.pretrained= < Pretrained PATH > --launcher pytorch --seed 0Para probar el rendimiento de los modelos previos a la aparición, ejecute
bash tools/dist_test.sh < Config PATH > < Checkpoint PATH > < NUM GPUs >Para los modelos VitPose+ Pretrados, primero reorganice los pesos previamente capacitados utilizando
python tools/model_split.py --source < Pretrained PATH > Esta corriente de repositorio contiene modificaciones que incluyen:
Cargar configuraciones y modelos previos a
Más modelos con resultados de SOTA
Subir la configuración de entrenamiento de tareas múltiples
Reconocemos la excelente implementación de MMPose y MAE.
Para vitpose
@inproceedings{
xu2022vitpose,
title={Vi{TP}ose: Simple Vision Transformer Baselines for Human Pose Estimation},
author={Yufei Xu and Jing Zhang and Qiming Zhang and Dacheng Tao},
booktitle={Advances in Neural Information Processing Systems},
year={2022},
}
Para vitpose+
@article{xu2022vitpose+,
title={ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation},
author={Xu, Yufei and Zhang, Jing and Zhang, Qiming and Tao, Dacheng},
journal={arXiv preprint arXiv:2212.04246},
year={2022}
}
Para Vitae y Vitaev2, consulte:
@article{xu2021vitae,
title={Vitae: Vision transformer advanced by exploring intrinsic inductive bias},
author={Xu, Yufei and Zhang, Qiming and Zhang, Jing and Tao, Dacheng},
journal={Advances in Neural Information Processing Systems},
volume={34},
year={2021}
}
@article{zhang2022vitaev2,
title={ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond},
author={Zhang, Qiming and Xu, Yufei and Zhang, Jing and Tao, Dacheng},
journal={arXiv preprint arXiv:2202.10108},
year={2022}
}