النتائج | تحديثات | الاستخدام | تودو | يُقرّ
يحتوي هذا الفرع على تنفيذ Pytorch لـ Vitpose: خطوط محول الرؤية البسيطة لتقدير تشكل الإنسان و Vitpose+: نموذج أساس محول الرؤية لتقدير تشكل الجسم العام. يحصل على 81.1 AP على MS Coco Keypoint Test Set.

باستخدام نتائج الكشف من كاشف يحصل على 56 خريطة على الشخص. التكوينات هنا هي لكل من التدريب والاختبار.
مع فك التشفير الكلاسيكي
| نموذج | ما قبل | دقة | AP | AR | تكوين | سجل | وزن |
|---|---|---|---|---|---|---|---|
| Vitpose-S | ماي | 256x192 | 73.8 | 79.2 | تكوين | سجل | onedrive |
| Vitpose-B | ماي | 256x192 | 75.8 | 81.1 | تكوين | سجل | onedrive |
| Vitpose-L | ماي | 256x192 | 78.3 | 83.5 | تكوين | سجل | onedrive |
| Vitpose-H | ماي | 256x192 | 79.1 | 84.1 | تكوين | سجل | onedrive |
مع فك تشفير بسيط
| نموذج | ما قبل | دقة | AP | AR | تكوين | سجل | وزن |
|---|---|---|---|---|---|---|---|
| Vitpose-S | ماي | 256x192 | 73.5 | 78.9 | تكوين | سجل | onedrive |
| Vitpose-B | ماي | 256x192 | 75.5 | 80.9 | تكوين | سجل | onedrive |
| Vitpose-L | ماي | 256x192 | 78.2 | 83.4 | تكوين | سجل | onedrive |
| Vitpose-H | ماي | 256x192 | 78.9 | 84.0 | تكوين | سجل | onedrive |
ملاحظة * قد توجد صور مكررة في مجموعة التدريب Crowdpose وصور التحقق من الصحة في مجموعات البيانات الأخرى ، كما تمت مناقشته في العدد رقم 24. يرجى توخي الحذر عند استخدام هذه النماذج للتقييم. نحن نقدم النتائج بدون مجموعة بيانات crowpose للرجوع إليها.
نتائج على مجموعة MS Coco Val
باستخدام نتائج الكشف من كاشف يحصل على 56 خريطة على الشخص. لاحظ التكوينات هنا فقط للتقييم.
| نموذج | مجموعة البيانات | دقة | AP | AR | تكوين | وزن |
|---|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 77.1 | 82.2 | تكوين | onedrive |
| Vitpose-L | Coco+AIC+MPII | 256x192 | 78.7 | 83.8 | تكوين | onedrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 79.5 | 84.5 | تكوين | onedrive |
| VESPOSE-G | Coco+AIC+MPII | 576x432 | 81.0 | 85.6 | ||
| Vitpose-B* | Coco+AIC+MPII+Crowdpose | 256x192 | 77.5 | 82.6 | تكوين | onedrive |
| Vitposph-L* | Coco+AIC+MPII+Crowdpose | 256x192 | 79.1 | 84.1 | تكوين | onedrive |
| Vitpose-H* | Coco+AIC+MPII+Crowdpose | 256x192 | 79.8 | 84.8 | تكوين | onedrive |
| Vitpose+-s | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 75.8 | 82.6 | تكوين | سجل | onedrive |
| Vitpose+-b | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 77.0 | 82.6 | تكوين | سجل | onedrive |
| Vitpose+-L | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 78.6 | 84.1 | تكوين | سجل | onedrive |
| Vitpose+-H | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 79.4 | 84.8 | تكوين | سجل | onedrive |
النتائج على مجموعة اختبار Ochuman
باستخدام الصناديق المحيطات بالولايات المتحدة. لاحظ التكوينات هنا فقط للتقييم.
| نموذج | مجموعة البيانات | دقة | AP | AR | تكوين | وزن |
|---|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 88.0 | 89.6 | تكوين | onedrive |
| Vitpose-L | Coco+AIC+MPII | 256x192 | 90.9 | 92.2 | تكوين | onedrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 90.9 | 92.3 | تكوين | onedrive |
| VESPOSE-G | Coco+AIC+MPII | 576x432 | 93.3 | 94.3 | ||
| Vitpose-B* | Coco+AIC+MPII+Crowdpose | 256x192 | 88.2 | 90.0 | تكوين | onedrive |
| Vitposph-L* | Coco+AIC+MPII+Crowdpose | 256x192 | 91.5 | 92.8 | تكوين | onedrive |
| Vitpose-H* | Coco+AIC+MPII+Crowdpose | 256x192 | 91.6 | 92.8 | تكوين | onedrive |
| Vitpose+-s | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 78.4 | 80.6 | تكوين | سجل | onedrive |
| Vitpose+-b | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 82.6 | 84.8 | تكوين | سجل | onedrive |
| Vitpose+-L | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 85.7 | 87.5 | تكوين | سجل | onedrive |
| Vitpose+-H | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 85.7 | 87.4 | تكوين | سجل | onedrive |
النتائج على مجموعة MPII Val
باستخدام الصناديق المحيطات بالولايات المتحدة. لاحظ التكوينات هنا فقط للتقييم. المقياس هو PCKH.
| نموذج | مجموعة البيانات | دقة | يقصد | تكوين | وزن |
|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 93.3 | تكوين | onedrive |
| Vitpose-L | Coco+AIC+MPII | 256x192 | 94.0 | تكوين | onedrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 94.1 | تكوين | onedrive |
| VESPOSE-G | Coco+AIC+MPII | 576x432 | 94.3 | ||
| Vitpose-B* | Coco+AIC+MPII+Crowdpose | 256x192 | 93.4 | تكوين | onedrive |
| Vitposph-L* | Coco+AIC+MPII+Crowdpose | 256x192 | 93.9 | تكوين | onedrive |
| Vitpose-H* | Coco+AIC+MPII+Crowdpose | 256x192 | 94.1 | تكوين | onedrive |
| Vitpose+-s | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 92.7 | تكوين | سجل | onedrive |
| Vitpose+-b | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 92.8 | تكوين | سجل | onedrive |
| Vitpose+-L | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 94.0 | تكوين | سجل | onedrive |
| Vitpose+-H | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 94.2 | تكوين | سجل | onedrive |
النتائج على مجموعة اختبار منافس الذكاء الاصطناعي
باستخدام الصناديق المحيطات بالولايات المتحدة. لاحظ التكوينات هنا فقط للتقييم.
| نموذج | مجموعة البيانات | دقة | AP | AR | تكوين | وزن |
|---|---|---|---|---|---|---|
| Vitpose-B | Coco+AIC+MPII | 256x192 | 32.0 | 36.3 | تكوين | onedrive |
| Vitpose-L | Coco+AIC+MPII | 256x192 | 34.5 | 39.0 | تكوين | onedrive |
| Vitpose-H | Coco+AIC+MPII | 256x192 | 35.4 | 39.9 | تكوين | onedrive |
| VESPOSE-G | Coco+AIC+MPII | 576x432 | 43.2 | 47.1 | ||
| Vitpose-B* | Coco+AIC+MPII+Crowdpose | 256x192 | 31.9 | 36.3 | تكوين | onedrive |
| Vitposph-L* | Coco+AIC+MPII+Crowdpose | 256x192 | 34.6 | 39.0 | تكوين | onedrive |
| Vitpose-H* | Coco+AIC+MPII+Crowdpose | 256x192 | 35.3 | 39.8 | تكوين | onedrive |
| Vitpose+-s | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 29.7 | 34.3 | تكوين | سجل | onedrive |
| Vitpose+-b | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 31.8 | 36.3 | تكوين | سجل | onedrive |
| Vitpose+-L | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 34.3 | 38.9 | تكوين | سجل | onedrive |
| Vitpose+-H | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 34.8 | 39.1 | تكوين | سجل | onedrive |
النتائج على مجموعة اختبار الحشد
باستخدام yolov3 كاشف الإنسان. لاحظ التكوينات هنا فقط للتقييم.
| نموذج | مجموعة البيانات | دقة | AP | AP (H) | تكوين | وزن |
|---|---|---|---|---|---|---|
| Vitpose-B* | Coco+AIC+MPII+Crowdpose | 256x192 | 74.7 | 63.3 | تكوين | onedrive |
| Vitposph-L* | Coco+AIC+MPII+Crowdpose | 256x192 | 76.6 | 65.9 | تكوين | onedrive |
| Vitpose-H* | Coco+AIC+MPII+Crowdpose | 256x192 | 76.3 | 65.6 | تكوين | onedrive |
النتائج على مجموعة اختبار AP-10K
| نموذج | مجموعة البيانات | دقة | AP | تكوين | وزن |
|---|---|---|---|---|---|
| Vitpose+-s | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 71.4 | تكوين | سجل | onedrive |
| Vitpose+-b | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 74.5 | تكوين | سجل | onedrive |
| Vitpose+-L | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 80.4 | تكوين | سجل | onedrive |
| Vitpose+-H | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 82.4 | تكوين | سجل | onedrive |
النتائج على مجموعة APT-36K Val
| نموذج | مجموعة البيانات | دقة | AP | تكوين | وزن |
|---|---|---|---|---|---|
| Vitpose+-s | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 74.2 | تكوين | سجل | onedrive |
| Vitpose+-b | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 75.9 | تكوين | سجل | onedrive |
| Vitpose+-L | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 80.8 | تكوين | سجل | onedrive |
| Vitpose+-H | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 82.3 | تكوين | سجل | onedrive |
| نموذج | مجموعة البيانات | دقة | AP | تكوين | وزن |
|---|---|---|---|---|---|
| Vitpose+-s | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 54.4 | تكوين | سجل | onedrive |
| Vitpose+-b | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 57.4 | تكوين | سجل | onedrive |
| Vitpose+-L | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 60.6 | تكوين | سجل | onedrive |
| Vitpose+-H | COCO+AIC+MPII+AP10K+APT36K+Wholebody | 256x192 | 61.2 | تكوين | سجل | onedrive |
| نموذج | مجموعة البيانات | دقة | AUC | تكوين | وزن |
|---|---|---|---|---|---|
| Vitpose+-s | COCO+AIC+MPII+كلها | 256x192 | 86.5 | تكوين | قريباً |
| Vitpose+-b | COCO+AIC+MPII+كلها | 256x192 | 87.0 | تكوين | قريباً |
| Vitpose+-L | COCO+AIC+MPII+كلها | 256x192 | 87.5 | تكوين | قريباً |
| Vitpose+-H | COCO+AIC+MPII+كلها | 256x192 | 87.6 | تكوين | قريباً |
[2023-01-10] تحديث Vitpose+! يستخدم استراتيجيات MOE للتعامل بشكل مشترك مع مهام التقدير البشرية والحيوانية والكامل.
[2022-05-24] قم بتحميل رمز تدريب المهام الواحدة ، والنماذج المسبقة المسبقة ، ونماذج متعددة المهام.
[2022-05-06] قم بتحميل سجلات القاعدة والكبيرة والضخمة!
[2022-04-27] يحصل Vitpose with Vitae-G على 81.1 AP على مجموعة اختبار Coco!
تشمل تطبيقات محول السيرة الذاتية: تصنيف الصور | الكشف عن الكائن | تجزئة الدلالية | تجزئة الحيوانات | الاستشعار عن بعد | الحصير | vsa | Vitdet
نستخدم Pytorch 1.9.0 أو NGC Docker 21.06 ، و MMCV 1.3.9 للتجارب.
git clone https://github.com/open-mmlab/mmcv.git
cd mmcv
git checkout v1.3.9
MMCV_WITH_OPS=1 pip install -e .
cd ..
git clone https://github.com/ViTAE-Transformer/ViTPose.git
cd ViTPose
pip install -v -e .بعد تثبيت اثنين من repos ، قم بتثبيت Timm و Einops ، أي ،
pip install timm==0.4.9 einopsبعد تنزيل النماذج المسبقة ، يرجى إجراء التجارب عن طريق التشغيل
# for single machine
bash tools/dist_train.sh < Config PATH > < NUM GPUs > --cfg-options model.pretrained= < Pretrained PATH > --seed 0
# for multiple machines
python -m torch.distributed.launch --nnodes < Num Machines > --node_rank < Rank of Machine > --nproc_per_node < GPUs Per Machine > --master_addr < Master Addr > --master_port < Master Port > tools/train.py < Config PATH > --cfg-options model.pretrained= < Pretrained PATH > --launcher pytorch --seed 0لاختبار أداء النماذج المسبق ، يرجى التشغيل
bash tools/dist_test.sh < Config PATH > < Checkpoint PATH > < NUM GPUs >بالنسبة إلى النماذج Vitpose+ المدربة مسبقًا ، يرجى أولاً إعادة تنظيم الأوزان التي تم تدريبها مسبقًا باستخدام
python tools/model_split.py --source < Pretrained PATH > يحتوي هذا التيار الريبو على تعديلات بما في ذلك:
تحميل النماذج والمواد المسبقة
المزيد من النماذج مع نتائج SOTA
تحميل تكوين التدريب متعدد المهام
نحن نقر بالتنفيذ الممتاز من MMPOSE و MAE.
ل Vitpose
@inproceedings{
xu2022vitpose,
title={Vi{TP}ose: Simple Vision Transformer Baselines for Human Pose Estimation},
author={Yufei Xu and Jing Zhang and Qiming Zhang and Dacheng Tao},
booktitle={Advances in Neural Information Processing Systems},
year={2022},
}
ل Vitpose+
@article{xu2022vitpose+,
title={ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation},
author={Xu, Yufei and Zhang, Jing and Zhang, Qiming and Tao, Dacheng},
journal={arXiv preprint arXiv:2212.04246},
year={2022}
}
لسيرة VITAE و VITAEV2 ، يرجى الرجوع إلى:
@article{xu2021vitae,
title={Vitae: Vision transformer advanced by exploring intrinsic inductive bias},
author={Xu, Yufei and Zhang, Qiming and Zhang, Jing and Tao, Dacheng},
journal={Advances in Neural Information Processing Systems},
volume={34},
year={2021}
}
@article{zhang2022vitaev2,
title={ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond},
author={Zhang, Qiming and Xu, Yufei and Zhang, Jing and Tao, Dacheng},
journal={arXiv preprint arXiv:2202.10108},
year={2022}
}