Hasil | Pembaruan | Penggunaan | Todo | Mengakui
Cabang ini berisi implementasi Vitpose Pytorch: Baseline transformator penglihatan sederhana untuk estimasi pose manusia dan vitpose+: model fondasi transformator penglihatan untuk estimasi pose tubuh generik. Ini memperoleh 81.1 AP pada set ms coco keypoint test-dev.

Menggunakan hasil deteksi dari detektor yang memperoleh 56 peta pada orang. Konfigurasi di sini adalah untuk pelatihan dan tes.
Dengan decoder klasik
| Model | Pretrain | Resolusi | Ap | Ar | konfigurasi | log | berat |
|---|---|---|---|---|---|---|---|
| Vitpose-s | Mae | 256x192 | 73.8 | 79.2 | konfigurasi | log | OneDrive |
| Vitpose-B | Mae | 256x192 | 75.8 | 81.1 | konfigurasi | log | OneDrive |
| Vitpose-l | Mae | 256x192 | 78.3 | 83.5 | konfigurasi | log | OneDrive |
| Vitpose-H | Mae | 256x192 | 79.1 | 84.1 | konfigurasi | log | OneDrive |
Dengan dekoder sederhana
| Model | Pretrain | Resolusi | Ap | Ar | konfigurasi | log | berat |
|---|---|---|---|---|---|---|---|
| Vitpose-s | Mae | 256x192 | 73.5 | 78.9 | konfigurasi | log | OneDrive |
| Vitpose-B | Mae | 256x192 | 75.5 | 80.9 | konfigurasi | log | OneDrive |
| Vitpose-l | Mae | 256x192 | 78.2 | 83.4 | konfigurasi | log | OneDrive |
| Vitpose-H | Mae | 256x192 | 78.9 | 84.0 | konfigurasi | log | OneDrive |
Catatan * Mungkin ada gambar duplikat di set pelatihan crowdpose dan gambar validasi dalam set data lain, seperti yang dibahas dalam edisi #24. Harap berhati -hati saat menggunakan model ini untuk evaluasi. Kami memberikan hasilnya tanpa dataset crowpose untuk referensi.
Hasil pada set MS Coco Val
Menggunakan hasil deteksi dari detektor yang memperoleh 56 peta pada orang. Perhatikan konfigurasi di sini hanya untuk evaluasi.
| Model | Dataset | Resolusi | Ap | Ar | konfigurasi | berat |
|---|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 77.1 | 82.2 | konfigurasi | OneDrive |
| Vitpose-l | Coco+AIC+MPII | 256x192 | 78.7 | 83.8 | konfigurasi | OneDrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 79.5 | 84.5 | konfigurasi | OneDrive |
| Vitpose-G | Coco+AIC+MPII | 576x432 | 81.0 | 85.6 | ||
| Vitpose-b* | Coco+AIC+MPII+Crowdpose | 256x192 | 77.5 | 82.6 | konfigurasi | OneDrive |
| Vitpose-l* | Coco+AIC+MPII+Crowdpose | 256x192 | 79.1 | 84.1 | konfigurasi | OneDrive |
| Vitpose-h* | Coco+AIC+MPII+Crowdpose | 256x192 | 79.8 | 84.8 | konfigurasi | OneDrive |
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 75.8 | 82.6 | konfigurasi | log | OneDrive |
| Vitpose+-B | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 77.0 | 82.6 | konfigurasi | log | OneDrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 78.6 | 84.1 | konfigurasi | log | OneDrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 79.4 | 84.8 | konfigurasi | log | OneDrive |
Hasil pada set tes ochuman
Menggunakan kotak pembatas tanah. Perhatikan konfigurasi di sini hanya untuk evaluasi.
| Model | Dataset | Resolusi | Ap | Ar | konfigurasi | berat |
|---|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 88.0 | 89.6 | konfigurasi | OneDrive |
| Vitpose-l | Coco+AIC+MPII | 256x192 | 90.9 | 92.2 | konfigurasi | OneDrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 90.9 | 92.3 | konfigurasi | OneDrive |
| Vitpose-G | Coco+AIC+MPII | 576x432 | 93.3 | 94.3 | ||
| Vitpose-b* | Coco+AIC+MPII+Crowdpose | 256x192 | 88.2 | 90.0 | konfigurasi | OneDrive |
| Vitpose-l* | Coco+AIC+MPII+Crowdpose | 256x192 | 91.5 | 92.8 | konfigurasi | OneDrive |
| Vitpose-h* | Coco+AIC+MPII+Crowdpose | 256x192 | 91.6 | 92.8 | konfigurasi | OneDrive |
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 78.4 | 80.6 | konfigurasi | log | OneDrive |
| Vitpose+-B | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 82.6 | 84.8 | konfigurasi | log | OneDrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 85.7 | 87.5 | konfigurasi | log | OneDrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 85.7 | 87.4 | konfigurasi | log | OneDrive |
Hasil pada set mpii val
Menggunakan kotak pembatas tanah. Perhatikan konfigurasi di sini hanya untuk evaluasi. Metriknya adalah pckh.
| Model | Dataset | Resolusi | Berarti | konfigurasi | berat |
|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 93.3 | konfigurasi | OneDrive |
| Vitpose-l | Coco+AIC+MPII | 256x192 | 94.0 | konfigurasi | OneDrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 94.1 | konfigurasi | OneDrive |
| Vitpose-G | Coco+AIC+MPII | 576x432 | 94.3 | ||
| Vitpose-b* | Coco+AIC+MPII+Crowdpose | 256x192 | 93.4 | konfigurasi | OneDrive |
| Vitpose-l* | Coco+AIC+MPII+Crowdpose | 256x192 | 93.9 | konfigurasi | OneDrive |
| Vitpose-h* | Coco+AIC+MPII+Crowdpose | 256x192 | 94.1 | konfigurasi | OneDrive |
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 92.7 | konfigurasi | log | OneDrive |
| Vitpose+-B | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 92.8 | konfigurasi | log | OneDrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 94.0 | konfigurasi | log | OneDrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 94.2 | konfigurasi | log | OneDrive |
Hasil pada set tes AI Challenger
Menggunakan kotak pembatas tanah. Perhatikan konfigurasi di sini hanya untuk evaluasi.
| Model | Dataset | Resolusi | Ap | Ar | konfigurasi | berat |
|---|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 32.0 | 36.3 | konfigurasi | OneDrive |
| Vitpose-l | Coco+AIC+MPII | 256x192 | 34.5 | 39.0 | konfigurasi | OneDrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 35.4 | 39.9 | konfigurasi | OneDrive |
| Vitpose-G | Coco+AIC+MPII | 576x432 | 43.2 | 47.1 | ||
| Vitpose-b* | Coco+AIC+MPII+Crowdpose | 256x192 | 31.9 | 36.3 | konfigurasi | OneDrive |
| Vitpose-l* | Coco+AIC+MPII+Crowdpose | 256x192 | 34.6 | 39.0 | konfigurasi | OneDrive |
| Vitpose-h* | Coco+AIC+MPII+Crowdpose | 256x192 | 35.3 | 39.8 | konfigurasi | OneDrive |
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 29.7 | 34.3 | konfigurasi | log | OneDrive |
| Vitpose+-B | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 31.8 | 36.3 | konfigurasi | log | OneDrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 34.3 | 38.9 | konfigurasi | log | OneDrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 34.8 | 39.1 | konfigurasi | log | OneDrive |
Hasil pada set tes crowdpose
Menggunakan detektor manusia YOLOV3. Perhatikan konfigurasi di sini hanya untuk evaluasi.
| Model | Dataset | Resolusi | Ap | Ap (h) | konfigurasi | berat |
|---|---|---|---|---|---|---|
| Vitpose-b* | Coco+AIC+MPII+Crowdpose | 256x192 | 74.7 | 63.3 | konfigurasi | OneDrive |
| Vitpose-l* | Coco+AIC+MPII+Crowdpose | 256x192 | 76.6 | 65.9 | konfigurasi | OneDrive |
| Vitpose-h* | Coco+AIC+MPII+Crowdpose | 256x192 | 76.3 | 65.6 | konfigurasi | OneDrive |
Hasil pada set tes AP-10K
| Model | Dataset | Resolusi | Ap | konfigurasi | berat |
|---|---|---|---|---|---|
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 71.4 | konfigurasi | log | OneDrive |
| Vitpose+-B | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 74.5 | konfigurasi | log | OneDrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 80.4 | konfigurasi | log | OneDrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 82.4 | konfigurasi | log | OneDrive |
Hasil pada set val APT-36K
| Model | Dataset | Resolusi | Ap | konfigurasi | berat |
|---|---|---|---|---|---|
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 74.2 | konfigurasi | log | OneDrive |
| Vitpose+-B | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 75.9 | konfigurasi | log | OneDrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 80.8 | konfigurasi | log | OneDrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 82.3 | konfigurasi | log | OneDrive |
| Model | Dataset | Resolusi | Ap | konfigurasi | berat |
|---|---|---|---|---|---|
| Vitpose+-s | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 54.4 | konfigurasi | log | OneDrive |
| Vitpose+-B | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 57.4 | konfigurasi | log | OneDrive |
| Vitpose+-l | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 60.6 | konfigurasi | log | OneDrive |
| Vitpose+-h | Coco+AIC+MPII+AP10K+APT36K+SELURUH | 256x192 | 61.2 | konfigurasi | log | OneDrive |
| Model | Dataset | Resolusi | Auc | konfigurasi | berat |
|---|---|---|---|---|---|
| Vitpose+-s | Coco+AIC+MPII+WholeBody | 256x192 | 86.5 | konfigurasi | Segera hadir |
| Vitpose+-B | Coco+AIC+MPII+WholeBody | 256x192 | 87.0 | konfigurasi | Segera hadir |
| Vitpose+-l | Coco+AIC+MPII+WholeBody | 256x192 | 87.5 | konfigurasi | Segera hadir |
| Vitpose+-h | Coco+AIC+MPII+WholeBody | 256x192 | 87.6 | konfigurasi | Segera hadir |
[2023-01-10] Perbarui Vitpose+! Ini menggunakan strategi MOE untuk bersama -sama berurusan dengan tugas estimasi manusia, hewan, dan WholeBody berpose.
[2022-05-24] Unggah kode pelatihan tugas tunggal, model pra-terlatih tugas tunggal, dan model pretrain multi-tugas.
[2022-05-06] Unggah log untuk model pangkalan, besar, dan besar!
[2022-04-27] Vitpose kami dengan Vitae-G memperoleh 81,1 AP pada set tes-dev coco!
Aplikasi transformator Vitae meliputi: Klasifikasi Gambar | Deteksi Objek | segmentasi semantik | Segmentasi Pose Hewan | penginderaan jauh | Matting | VSA | Vitdet
Kami menggunakan Pytorch 1.9.0 atau NGC Docker 21.06, dan MMCV 1.3.9 untuk percobaan.
git clone https://github.com/open-mmlab/mmcv.git
cd mmcv
git checkout v1.3.9
MMCV_WITH_OPS=1 pip install -e .
cd ..
git clone https://github.com/ViTAE-Transformer/ViTPose.git
cd ViTPose
pip install -v -e .Setelah menginstal dua repo, instal Timm dan Einops, yaitu,
pip install timm==0.4.9 einopsSetelah mengunduh model pretrained, silakan lakukan percobaan dengan berjalan
# for single machine
bash tools/dist_train.sh < Config PATH > < NUM GPUs > --cfg-options model.pretrained= < Pretrained PATH > --seed 0
# for multiple machines
python -m torch.distributed.launch --nnodes < Num Machines > --node_rank < Rank of Machine > --nproc_per_node < GPUs Per Machine > --master_addr < Master Addr > --master_port < Master Port > tools/train.py < Config PATH > --cfg-options model.pretrained= < Pretrained PATH > --launcher pytorch --seed 0Untuk menguji kinerja model pretrained, silakan jalankan
bash tools/dist_test.sh < Config PATH > < Checkpoint PATH > < NUM GPUs >Untuk model vitpose+ pra-terlatih, harap pertama-tama mengatur ulang bobot yang sudah terlatih menggunakan
python tools/model_split.py --source < Pretrained PATH > Arus repo ini berisi modifikasi termasuk:
Unggah konfigurasi dan model pretrained
Lebih banyak model dengan hasil sota
Unggah konfigurasi pelatihan multi-tugas
Kami mengakui implementasi yang sangat baik dari MMPOSE dan MAE.
Untuk vitpose
@inproceedings{
xu2022vitpose,
title={Vi{TP}ose: Simple Vision Transformer Baselines for Human Pose Estimation},
author={Yufei Xu and Jing Zhang and Qiming Zhang and Dacheng Tao},
booktitle={Advances in Neural Information Processing Systems},
year={2022},
}
Untuk vitpose+
@article{xu2022vitpose+,
title={ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation},
author={Xu, Yufei and Zhang, Jing and Zhang, Qiming and Tao, Dacheng},
journal={arXiv preprint arXiv:2212.04246},
year={2022}
}
Untuk Vitae dan Vitaev2, silakan merujuk ke:
@article{xu2021vitae,
title={Vitae: Vision transformer advanced by exploring intrinsic inductive bias},
author={Xu, Yufei and Zhang, Qiming and Zhang, Jing and Tao, Dacheng},
journal={Advances in Neural Information Processing Systems},
volume={34},
year={2021}
}
@article{zhang2022vitaev2,
title={ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond},
author={Zhang, Qiming and Xu, Yufei and Zhang, Jing and Tao, Dacheng},
journal={arXiv preprint arXiv:2202.10108},
year={2022}
}