结果|更新|用法| todo |承认
该分支包含Vitpose的Pytorch实施:人置姿势估计和VITPOSE+的简单视觉变压器基线:视觉变压器基础模型,用于通用身体姿势估计。它在MS Coco KePoint Test-DEV集中获得81.1 AP。

使用检测结果,从检测器获得56个地图的检测结果。这里的配置既用于培训和测试。
与经典解码器
| 模型 | 预认证 | 解决 | AP | ar | config | 日志 | 重量 |
|---|---|---|---|---|---|---|---|
| vitpose-s | 梅 | 256x192 | 73.8 | 79.2 | config | 日志 | OneDrive |
| vitpose-b | 梅 | 256x192 | 75.8 | 81.1 | config | 日志 | OneDrive |
| vitpose-l | 梅 | 256x192 | 78.3 | 83.5 | config | 日志 | OneDrive |
| VITPOSE-H | 梅 | 256x192 | 79.1 | 84.1 | config | 日志 | OneDrive |
使用简单的解码器
| 模型 | 预认证 | 解决 | AP | ar | config | 日志 | 重量 |
|---|---|---|---|---|---|---|---|
| vitpose-s | 梅 | 256x192 | 73.5 | 78.9 | config | 日志 | OneDrive |
| vitpose-b | 梅 | 256x192 | 75.5 | 80.9 | config | 日志 | OneDrive |
| vitpose-l | 梅 | 256x192 | 78.2 | 83.4 | config | 日志 | OneDrive |
| VITPOSE-H | 梅 | 256x192 | 78.9 | 84.0 | config | 日志 | OneDrive |
注意*如第24期所述,人群训练集中可能存在重复的图像和其他数据集中的验证图像。使用这些模型进行评估时,请小心。我们提供的结果没有众群数据集以供参考。
MS Coco Val集的结果
使用检测结果,从检测器获得56个地图的检测结果。注意此处的配置仅用于评估。
| 模型 | 数据集 | 解决 | AP | ar | config | 重量 |
|---|---|---|---|---|---|---|
| vitpose-b | 可可+AIC+MPII | 256x192 | 77.1 | 82.2 | config | OneDrive |
| vitpose-l | 可可+AIC+MPII | 256x192 | 78.7 | 83.8 | config | OneDrive |
| VITPOSE-H | 可可+AIC+MPII | 256x192 | 79.5 | 84.5 | config | OneDrive |
| vitpose-g | 可可+AIC+MPII | 576x432 | 81.0 | 85.6 | ||
| vitpose-b* | 可可+AIC+MPII+人群 | 256x192 | 77.5 | 82.6 | config | OneDrive |
| vitpose-l* | 可可+AIC+MPII+人群 | 256x192 | 79.1 | 84.1 | config | OneDrive |
| vitpose-h* | 可可+AIC+MPII+人群 | 256x192 | 79.8 | 84.8 | config | OneDrive |
| vitpose+-s | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 75.8 | 82.6 | config | 日志| OneDrive |
| vitpose+-b | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 77.0 | 82.6 | config | 日志| OneDrive |
| vitpose+-l | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 78.6 | 84.1 | config | 日志| OneDrive |
| vitpose+-h | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 79.4 | 84.8 | config | 日志| OneDrive |
Ochuman测试集的结果
使用地面界限框。注意此处的配置仅用于评估。
| 模型 | 数据集 | 解决 | AP | ar | config | 重量 |
|---|---|---|---|---|---|---|
| vitpose-b | 可可+AIC+MPII | 256x192 | 88.0 | 89.6 | config | OneDrive |
| vitpose-l | 可可+AIC+MPII | 256x192 | 90.9 | 92.2 | config | OneDrive |
| VITPOSE-H | 可可+AIC+MPII | 256x192 | 90.9 | 92.3 | config | OneDrive |
| vitpose-g | 可可+AIC+MPII | 576x432 | 93.3 | 94.3 | ||
| vitpose-b* | 可可+AIC+MPII+人群 | 256x192 | 88.2 | 90.0 | config | OneDrive |
| vitpose-l* | 可可+AIC+MPII+人群 | 256x192 | 91.5 | 92.8 | config | OneDrive |
| vitpose-h* | 可可+AIC+MPII+人群 | 256x192 | 91.6 | 92.8 | config | OneDrive |
| vitpose+-s | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 78.4 | 80.6 | config | 日志| OneDrive |
| vitpose+-b | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 82.6 | 84.8 | config | 日志| OneDrive |
| vitpose+-l | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 85.7 | 87.5 | config | 日志| OneDrive |
| vitpose+-h | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 85.7 | 87.4 | config | 日志| OneDrive |
MPII VAL集的结果
使用地面界限框。注意此处的配置仅用于评估。指标是PCKH。
| 模型 | 数据集 | 解决 | 意思是 | config | 重量 |
|---|---|---|---|---|---|
| vitpose-b | 可可+AIC+MPII | 256x192 | 93.3 | config | OneDrive |
| vitpose-l | 可可+AIC+MPII | 256x192 | 94.0 | config | OneDrive |
| VITPOSE-H | 可可+AIC+MPII | 256x192 | 94.1 | config | OneDrive |
| vitpose-g | 可可+AIC+MPII | 576x432 | 94.3 | ||
| vitpose-b* | 可可+AIC+MPII+人群 | 256x192 | 93.4 | config | OneDrive |
| vitpose-l* | 可可+AIC+MPII+人群 | 256x192 | 93.9 | config | OneDrive |
| vitpose-h* | 可可+AIC+MPII+人群 | 256x192 | 94.1 | config | OneDrive |
| vitpose+-s | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 92.7 | config | 日志| OneDrive |
| vitpose+-b | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 92.8 | config | 日志| OneDrive |
| vitpose+-l | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 94.0 | config | 日志| OneDrive |
| vitpose+-h | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 94.2 | config | 日志| OneDrive |
AI挑战者测试集的结果
使用地面界限框。注意此处的配置仅用于评估。
| 模型 | 数据集 | 解决 | AP | ar | config | 重量 |
|---|---|---|---|---|---|---|
| vitpose-b | 可可+AIC+MPII | 256x192 | 32.0 | 36.3 | config | OneDrive |
| vitpose-l | 可可+AIC+MPII | 256x192 | 34.5 | 39.0 | config | OneDrive |
| VITPOSE-H | 可可+AIC+MPII | 256x192 | 35.4 | 39.9 | config | OneDrive |
| vitpose-g | 可可+AIC+MPII | 576x432 | 43.2 | 47.1 | ||
| vitpose-b* | 可可+AIC+MPII+人群 | 256x192 | 31.9 | 36.3 | config | OneDrive |
| vitpose-l* | 可可+AIC+MPII+人群 | 256x192 | 34.6 | 39.0 | config | OneDrive |
| vitpose-h* | 可可+AIC+MPII+人群 | 256x192 | 35.3 | 39.8 | config | OneDrive |
| vitpose+-s | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 29.7 | 34.3 | config | 日志| OneDrive |
| vitpose+-b | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 31.8 | 36.3 | config | 日志| OneDrive |
| vitpose+-l | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 34.3 | 38.9 | config | 日志| OneDrive |
| vitpose+-h | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 34.8 | 39.1 | config | 日志| OneDrive |
在人群测试集上的结果
使用Yolov3人类检测器。注意此处的配置仅用于评估。
| 模型 | 数据集 | 解决 | AP | AP(H) | config | 重量 |
|---|---|---|---|---|---|---|
| vitpose-b* | 可可+AIC+MPII+人群 | 256x192 | 74.7 | 63.3 | config | OneDrive |
| vitpose-l* | 可可+AIC+MPII+人群 | 256x192 | 76.6 | 65.9 | config | OneDrive |
| vitpose-h* | 可可+AIC+MPII+人群 | 256x192 | 76.3 | 65.6 | config | OneDrive |
AP-10K测试集的结果
| 模型 | 数据集 | 解决 | AP | config | 重量 |
|---|---|---|---|---|---|
| vitpose+-s | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 71.4 | config | 日志| OneDrive |
| vitpose+-b | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 74.5 | config | 日志| OneDrive |
| vitpose+-l | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 80.4 | config | 日志| OneDrive |
| vitpose+-h | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 82.4 | config | 日志| OneDrive |
在APT-36K VAL集中的结果
| 模型 | 数据集 | 解决 | AP | config | 重量 |
|---|---|---|---|---|---|
| vitpose+-s | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 74.2 | config | 日志| OneDrive |
| vitpose+-b | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 75.9 | config | 日志| OneDrive |
| vitpose+-l | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 80.8 | config | 日志| OneDrive |
| vitpose+-h | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 82.3 | config | 日志| OneDrive |
| 模型 | 数据集 | 解决 | AP | config | 重量 |
|---|---|---|---|---|---|
| vitpose+-s | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 54.4 | config | 日志| OneDrive |
| vitpose+-b | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 57.4 | config | 日志| OneDrive |
| vitpose+-l | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 60.6 | config | 日志| OneDrive |
| vitpose+-h | 可可+AIC+MPII+AP10K+APT36K+整体 | 256x192 | 61.2 | config | 日志| OneDrive |
| 模型 | 数据集 | 解决 | AUC | config | 重量 |
|---|---|---|---|---|---|
| vitpose+-s | 可可+AIC+MPII+整体 | 256x192 | 86.5 | config | 即将推出 |
| vitpose+-b | 可可+AIC+MPII+整体 | 256x192 | 87.0 | config | 即将推出 |
| vitpose+-l | 可可+AIC+MPII+整体 | 256x192 | 87.5 | config | 即将推出 |
| vitpose+-h | 可可+AIC+MPII+整体 | 256x192 | 87.6 | config | 即将推出 |
[2023-01-10]更新vitpose+!它使用MOE策略共同处理人类,动物和全身构成估计任务。
[2022-05-24]上传单任务训练代码,单任务预先训练的模型和多任务预读的模型。
[2022-05-06]上传基础,大型和巨大型号的日志!
[2022-04-27]我们使用Vitae-G的Vitpose在可可测试-DEV集中获得了81.1 AP!
Vitae Transformer的应用包括:图像分类|对象检测|语义分割|动物姿势分割|遥感|垫子| VSA | VITDET
我们使用Pytorch 1.9.0或NGC Docker 21.06和MMCV 1.3.9进行实验。
git clone https://github.com/open-mmlab/mmcv.git
cd mmcv
git checkout v1.3.9
MMCV_WITH_OPS=1 pip install -e .
cd ..
git clone https://github.com/ViTAE-Transformer/ViTPose.git
cd ViTPose
pip install -v -e .安装两个存储库后,安装Timm和Einops,即
pip install timm==0.4.9 einops下载验证的型号后,请通过运行来进行实验
# for single machine
bash tools/dist_train.sh < Config PATH > < NUM GPUs > --cfg-options model.pretrained= < Pretrained PATH > --seed 0
# for multiple machines
python -m torch.distributed.launch --nnodes < Num Machines > --node_rank < Rank of Machine > --nproc_per_node < GPUs Per Machine > --master_addr < Master Addr > --master_port < Master Port > tools/train.py < Config PATH > --cfg-options model.pretrained= < Pretrained PATH > --launcher pytorch --seed 0要测试验证的模型性能,请运行
bash tools/dist_test.sh < Config PATH > < Checkpoint PATH > < NUM GPUs >对于VitPose+预训练的模型,请首先使用
python tools/model_split.py --source < Pretrained PATH > 此回购电流包含:
上传配置和预算的型号
更多具有SOTA结果的模型
上传多任务培训配置
我们承认Mmpose和Mae的出色实施。
用于vitpose
@inproceedings{
xu2022vitpose,
title={Vi{TP}ose: Simple Vision Transformer Baselines for Human Pose Estimation},
author={Yufei Xu and Jing Zhang and Qiming Zhang and Dacheng Tao},
booktitle={Advances in Neural Information Processing Systems},
year={2022},
}
用于vitpose+
@article{xu2022vitpose+,
title={ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation},
author={Xu, Yufei and Zhang, Jing and Zhang, Qiming and Tao, Dacheng},
journal={arXiv preprint arXiv:2212.04246},
year={2022}
}
有关Vitae和Vitaev2,请参考:
@article{xu2021vitae,
title={Vitae: Vision transformer advanced by exploring intrinsic inductive bias},
author={Xu, Yufei and Zhang, Qiming and Zhang, Jing and Tao, Dacheng},
journal={Advances in Neural Information Processing Systems},
volume={34},
year={2021}
}
@article{zhang2022vitaev2,
title={ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond},
author={Zhang, Qiming and Xu, Yufei and Zhang, Jing and Tao, Dacheng},
journal={arXiv preprint arXiv:2202.10108},
year={2022}
}