결과 | 업데이트 | 사용법 | TODO | 인정하다
이 분기에는 Vitpose의 Pytorch 구현이 포함되어 있습니다 : 인간 포즈 추정 및 유리체+: Vision Transformer Foundation 모델을위한 단순 비전 변압기 기준선이 포함되어 있습니다. MS Coco Keypoint Test-DEV 세트에서 81.1 AP를 얻습니다.

개인에 대한 56 개의 맵을 얻는 탐지기의 탐지 결과를 사용합니다. 여기의 구성은 교육 및 테스트를위한 것입니다.
클래식 디코더로
| 모델 | 프리 트레인 | 해결 | ap | AR | 구성 | 통나무 | 무게 |
|---|---|---|---|---|---|---|---|
| vitpose-s | 매 | 256x192 | 73.8 | 79.2 | 구성 | 통나무 | OneDrive |
| 유리체 B | 매 | 256x192 | 75.8 | 81.1 | 구성 | 통나무 | OneDrive |
| 유리체 L | 매 | 256x192 | 78.3 | 83.5 | 구성 | 통나무 | OneDrive |
| vitpose-h | 매 | 256x192 | 79.1 | 84.1 | 구성 | 통나무 | OneDrive |
간단한 디코더로
| 모델 | 프리 트레인 | 해결 | ap | AR | 구성 | 통나무 | 무게 |
|---|---|---|---|---|---|---|---|
| vitpose-s | 매 | 256x192 | 73.5 | 78.9 | 구성 | 통나무 | OneDrive |
| 유리체 B | 매 | 256x192 | 75.5 | 80.9 | 구성 | 통나무 | OneDrive |
| 유리체 L | 매 | 256x192 | 78.2 | 83.4 | 구성 | 통나무 | OneDrive |
| vitpose-h | 매 | 256x192 | 78.9 | 84.0 | 구성 | 통나무 | OneDrive |
참고 * 문제 #24에서 논의 된대로 크라우드 퍼스 교육 세트와 다른 데이터 세트의 검증 이미지에 중복 이미지가있을 수 있습니다. 평가를 위해이 모델을 사용할 때주의하십시오. Crowpose 데이터 세트가없는 결과를 참조 할 수 있습니다.
MS Coco Val Set의 결과
개인에 대한 56 개의 맵을 얻는 탐지기의 탐지 결과를 사용합니다. 여기 구성은 평가를위한 것입니다.
| 모델 | 데이터 세트 | 해결 | ap | AR | 구성 | 무게 |
|---|---|---|---|---|---|---|
| 유리체 B | 코코+AIC+MPII | 256x192 | 77.1 | 82.2 | 구성 | OneDrive |
| 유리체 L | 코코+AIC+MPII | 256x192 | 78.7 | 83.8 | 구성 | OneDrive |
| vitpose-h | 코코+AIC+MPII | 256x192 | 79.5 | 84.5 | 구성 | OneDrive |
| 유리체 G | 코코+AIC+MPII | 576x432 | 81.0 | 85.6 | ||
| 유리체 B* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 77.5 | 82.6 | 구성 | OneDrive |
| 유리체 L* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 79.1 | 84.1 | 구성 | OneDrive |
| vitpose-h* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 79.8 | 84.8 | 구성 | OneDrive |
| 유리체+-s | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 75.8 | 82.6 | 구성 | 로그 | OneDrive |
| 유리체+-B | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 77.0 | 82.6 | 구성 | 로그 | OneDrive |
| 유리체+-L | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 78.6 | 84.1 | 구성 | 로그 | OneDrive |
| 유리체+-h | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 79.4 | 84.8 | 구성 | 로그 | OneDrive |
Ochuman 테스트 세트의 결과
지상 경계 박스 사용. 여기 구성은 평가를위한 것입니다.
| 모델 | 데이터 세트 | 해결 | ap | AR | 구성 | 무게 |
|---|---|---|---|---|---|---|
| 유리체 B | 코코+AIC+MPII | 256x192 | 88.0 | 89.6 | 구성 | OneDrive |
| 유리체 L | 코코+AIC+MPII | 256x192 | 90.9 | 92.2 | 구성 | OneDrive |
| vitpose-h | 코코+AIC+MPII | 256x192 | 90.9 | 92.3 | 구성 | OneDrive |
| 유리체 G | 코코+AIC+MPII | 576x432 | 93.3 | 94.3 | ||
| 유리체 B* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 88.2 | 90.0 | 구성 | OneDrive |
| 유리체 L* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 91.5 | 92.8 | 구성 | OneDrive |
| vitpose-h* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 91.6 | 92.8 | 구성 | OneDrive |
| 유리체+-s | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 78.4 | 80.6 | 구성 | 로그 | OneDrive |
| 유리체+-B | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 82.6 | 84.8 | 구성 | 로그 | OneDrive |
| 유리체+-L | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 85.7 | 87.5 | 구성 | 로그 | OneDrive |
| 유리체+-h | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 85.7 | 87.4 | 구성 | 로그 | OneDrive |
mpii val 세트의 결과
지상 경계 박스 사용. 여기 구성은 평가를위한 것입니다. 메트릭은 PCKH입니다.
| 모델 | 데이터 세트 | 해결 | 평균 | 구성 | 무게 |
|---|---|---|---|---|---|
| 유리체 B | 코코+AIC+MPII | 256x192 | 93.3 | 구성 | OneDrive |
| 유리체 L | 코코+AIC+MPII | 256x192 | 94.0 | 구성 | OneDrive |
| vitpose-h | 코코+AIC+MPII | 256x192 | 94.1 | 구성 | OneDrive |
| 유리체 G | 코코+AIC+MPII | 576x432 | 94.3 | ||
| 유리체 B* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 93.4 | 구성 | OneDrive |
| 유리체 L* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 93.9 | 구성 | OneDrive |
| vitpose-h* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 94.1 | 구성 | OneDrive |
| 유리체+-s | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 92.7 | 구성 | 로그 | OneDrive |
| 유리체+-B | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 92.8 | 구성 | 로그 | OneDrive |
| 유리체+-L | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 94.0 | 구성 | 로그 | OneDrive |
| 유리체+-h | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 94.2 | 구성 | 로그 | OneDrive |
AI Challenger 테스트 세트의 결과
지상 경계 박스 사용. 여기 구성은 평가를위한 것입니다.
| 모델 | 데이터 세트 | 해결 | ap | AR | 구성 | 무게 |
|---|---|---|---|---|---|---|
| 유리체 B | 코코+AIC+MPII | 256x192 | 32.0 | 36.3 | 구성 | OneDrive |
| 유리체 L | 코코+AIC+MPII | 256x192 | 34.5 | 39.0 | 구성 | OneDrive |
| vitpose-h | 코코+AIC+MPII | 256x192 | 35.4 | 39.9 | 구성 | OneDrive |
| 유리체 G | 코코+AIC+MPII | 576x432 | 43.2 | 47.1 | ||
| 유리체 B* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 31.9 | 36.3 | 구성 | OneDrive |
| 유리체 L* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 34.6 | 39.0 | 구성 | OneDrive |
| vitpose-h* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 35.3 | 39.8 | 구성 | OneDrive |
| 유리체+-s | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 29.7 | 34.3 | 구성 | 로그 | OneDrive |
| 유리체+-B | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 31.8 | 36.3 | 구성 | 로그 | OneDrive |
| 유리체+-L | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 34.3 | 38.9 | 구성 | 로그 | OneDrive |
| 유리체+-h | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 34.8 | 39.1 | 구성 | 로그 | OneDrive |
Crowdpose 테스트 세트의 결과
YOLOV3 인간 검출기 사용. 여기 구성은 평가를위한 것입니다.
| 모델 | 데이터 세트 | 해결 | ap | AP (H) | 구성 | 무게 |
|---|---|---|---|---|---|---|
| 유리체 B* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 74.7 | 63.3 | 구성 | OneDrive |
| 유리체 L* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 76.6 | 65.9 | 구성 | OneDrive |
| vitpose-h* | Coco+AIC+MPII+크라우드 퍼스 | 256x192 | 76.3 | 65.6 | 구성 | OneDrive |
AP-10K 테스트 세트의 결과
| 모델 | 데이터 세트 | 해결 | ap | 구성 | 무게 |
|---|---|---|---|---|---|
| 유리체+-s | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 71.4 | 구성 | 로그 | OneDrive |
| 유리체+-B | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 74.5 | 구성 | 로그 | OneDrive |
| 유리체+-L | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 80.4 | 구성 | 로그 | OneDrive |
| 유리체+-h | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 82.4 | 구성 | 로그 | OneDrive |
APT-36K VAL 세트의 결과
| 모델 | 데이터 세트 | 해결 | ap | 구성 | 무게 |
|---|---|---|---|---|---|
| 유리체+-s | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 74.2 | 구성 | 로그 | OneDrive |
| 유리체+-B | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 75.9 | 구성 | 로그 | OneDrive |
| 유리체+-L | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 80.8 | 구성 | 로그 | OneDrive |
| 유리체+-h | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 82.3 | 구성 | 로그 | OneDrive |
| 모델 | 데이터 세트 | 해결 | ap | 구성 | 무게 |
|---|---|---|---|---|---|
| 유리체+-s | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 54.4 | 구성 | 로그 | OneDrive |
| 유리체+-B | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 57.4 | 구성 | 로그 | OneDrive |
| 유리체+-L | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 60.6 | 구성 | 로그 | OneDrive |
| 유리체+-h | Coco+AIC+MPII+AP10K+APT36K+전체 바디 | 256x192 | 61.2 | 구성 | 로그 | OneDrive |
| 모델 | 데이터 세트 | 해결 | AUC | 구성 | 무게 |
|---|---|---|---|---|---|
| 유리체+-s | Coco+AIC+MPII+전체 바디 | 256x192 | 86.5 | 구성 | 곧 올 것입니다 |
| 유리체+-B | Coco+AIC+MPII+전체 바디 | 256x192 | 87.0 | 구성 | 곧 올 것입니다 |
| 유리체+-L | Coco+AIC+MPII+전체 바디 | 256x192 | 87.5 | 구성 | 곧 올 것입니다 |
| 유리체+-h | Coco+AIC+MPII+전체 바디 | 256x192 | 87.6 | 구성 | 곧 올 것입니다 |
[2023-01-10] Update vitpose+! 그것은 MOE 전략을 사용하여 인간, 동물 및 전체 몸 포즈 추정 과제를 공동으로 다루고 있습니다.
[2022-05-24] 단일 작업 교육 코드, 단일 작업 미리 훈련 된 모델 및 멀티 태스킹 사전 모델을 업로드하십시오.
[2022-05-06]베이스, 크고 거대한 모델의 로그를 업로드하십시오!
[2022-04-27] vitae-g와 함께 우리의 유리체는 Coco Test-Dev 세트에서 81.1 AP를 얻습니다!
Vitae 변압기의 응용에는 다음이 포함됩니다. 이미지 분류 | 객체 감지 | 시맨틱 세분화 | 동물 포즈 세그먼트 | 원격 감지 | 매트 | VSA | vitdet
실험에는 Pytorch 1.9.0 또는 NGC Docker 21.06 및 MMCV 1.3.9를 사용합니다.
git clone https://github.com/open-mmlab/mmcv.git
cd mmcv
git checkout v1.3.9
MMCV_WITH_OPS=1 pip install -e .
cd ..
git clone https://github.com/ViTAE-Transformer/ViTPose.git
cd ViTPose
pip install -v -e .두 개의 리포지션을 설치 한 후 Timm 및 Einops를 설치하십시오.
pip install timm==0.4.9 einops사전에 사전 모델을 다운로드 한 후 실행하여 실험을 수행하십시오.
# for single machine
bash tools/dist_train.sh < Config PATH > < NUM GPUs > --cfg-options model.pretrained= < Pretrained PATH > --seed 0
# for multiple machines
python -m torch.distributed.launch --nnodes < Num Machines > --node_rank < Rank of Machine > --nproc_per_node < GPUs Per Machine > --master_addr < Master Addr > --master_port < Master Port > tools/train.py < Config PATH > --cfg-options model.pretrained= < Pretrained PATH > --launcher pytorch --seed 0사전 예방 모델 성능을 테스트하려면 실행하십시오
bash tools/dist_test.sh < Config PATH > < Checkpoint PATH > < NUM GPUs >유리체+ 사전 훈련 된 모델의 경우 먼저 미리 훈련 된 중량을 재구성하십시오.
python tools/model_split.py --source < Pretrained PATH > 이 repo current에는 다음을 포함한 수정이 포함됩니다.
구성 및 사전 제한 모델을 업로드하십시오
SOTA 결과가 포함 된 더 많은 모델
멀티 태스킹 교육 구성을 업로드하십시오
우리는 Mmpose와 Mae의 우수한 구현을 인정합니다.
유리체를 위해
@inproceedings{
xu2022vitpose,
title={Vi{TP}ose: Simple Vision Transformer Baselines for Human Pose Estimation},
author={Yufei Xu and Jing Zhang and Qiming Zhang and Dacheng Tao},
booktitle={Advances in Neural Information Processing Systems},
year={2022},
}
vitpose+를 위해
@article{xu2022vitpose+,
title={ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation},
author={Xu, Yufei and Zhang, Jing and Zhang, Qiming and Tao, Dacheng},
journal={arXiv preprint arXiv:2212.04246},
year={2022}
}
vitae 및 vitaev2의 경우 다음을 참조하십시오.
@article{xu2021vitae,
title={Vitae: Vision transformer advanced by exploring intrinsic inductive bias},
author={Xu, Yufei and Zhang, Qiming and Zhang, Jing and Tao, Dacheng},
journal={Advances in Neural Information Processing Systems},
volume={34},
year={2021}
}
@article{zhang2022vitaev2,
title={ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond},
author={Zhang, Qiming and Xu, Yufei and Zhang, Jing and Tao, Dacheng},
journal={arXiv preprint arXiv:2202.10108},
year={2022}
}