Résultats | Mises à jour | Utilisation | TODO | Reconnaître
Cette branche contient la mise en œuvre de Pytorch de Vitpose: Bâlines de transformateur de vision simple pour l'estimation de la pose humaine et Vitpose +: Modèle de fondation du transformateur de vision pour l'estimation générique de la pose du corps. Il obtient 81.1 AP sur MS COCO KEYPOINT TEST-DEV SET.

L'utilisation des résultats de détection d'un détecteur qui obtient 56 carte sur personne. Les configurations ici sont pour la formation et le test.
Avec décodeur classique
| Modèle | Présager | Résolution | AP | Ardente | configurer | enregistrer | poids |
|---|---|---|---|---|---|---|---|
| Vitpose-s | Mae | 256x192 | 73.8 | 79.2 | configurer | enregistrer | Onedrive |
| Vitpose-b | Mae | 256x192 | 75.8 | 81.1 | configurer | enregistrer | Onedrive |
| Vitpose-l | Mae | 256x192 | 78.3 | 83.5 | configurer | enregistrer | Onedrive |
| Vitpose-h | Mae | 256x192 | 79.1 | 84.1 | configurer | enregistrer | Onedrive |
Avec un décodeur simple
| Modèle | Présager | Résolution | AP | Ardente | configurer | enregistrer | poids |
|---|---|---|---|---|---|---|---|
| Vitpose-s | Mae | 256x192 | 73.5 | 78.9 | configurer | enregistrer | Onedrive |
| Vitpose-b | Mae | 256x192 | 75.5 | 80.9 | configurer | enregistrer | Onedrive |
| Vitpose-l | Mae | 256x192 | 78.2 | 83.4 | configurer | enregistrer | Onedrive |
| Vitpose-h | Mae | 256x192 | 78.9 | 84.0 | configurer | enregistrer | Onedrive |
Remarque * Il peut exister des images en double dans l'ensemble de formation CrowdPose et les images de validation dans d'autres ensembles de données, comme discuté dans le numéro 24. Veuillez être prudent lorsque vous utilisez ces modèles pour l'évaluation. Nous fournissons les résultats sans l'ensemble de données Crowose pour référence.
Résultats sur Mme Coco Val Set
L'utilisation des résultats de détection d'un détecteur qui obtient 56 carte sur personne. Remarque Les configurations ici sont uniquement pour l'évaluation.
| Modèle | Ensemble de données | Résolution | AP | Ardente | configurer | poids |
|---|---|---|---|---|---|---|
| Vitpose-b | Coco + AIC + MPII | 256x192 | 77.1 | 82.2 | configurer | Onedrive |
| Vitpose-l | Coco + AIC + MPII | 256x192 | 78.7 | 83.8 | configurer | Onedrive |
| Vitpose-h | Coco + AIC + MPII | 256x192 | 79.5 | 84.5 | configurer | Onedrive |
| Vitpose-g | Coco + AIC + MPII | 576x432 | 81.0 | 85.6 | ||
| Vitpose-b * | Coco + AIC + MPII + CrowdPose | 256x192 | 77.5 | 82.6 | configurer | Onedrive |
| Vitpose-l * | Coco + AIC + MPII + CrowdPose | 256x192 | 79.1 | 84.1 | configurer | Onedrive |
| Vitpose-h * | Coco + AIC + MPII + CrowdPose | 256x192 | 79.8 | 84.8 | configurer | Onedrive |
| Vitpose + -s | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 75.8 | 82.6 | configurer | Journal | Onedrive |
| Vitpose + -b | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 77.0 | 82.6 | configurer | Journal | Onedrive |
| Vitpose + -l | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 78.6 | 84.1 | configurer | Journal | Onedrive |
| Vitpose + -h | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 79.4 | 84.8 | configurer | Journal | Onedrive |
Résultats sur l'ensemble de tests Ochuman
Utilisation de boîtes de délimitation à la terre. Remarque Les configurations ici sont uniquement pour l'évaluation.
| Modèle | Ensemble de données | Résolution | AP | Ardente | configurer | poids |
|---|---|---|---|---|---|---|
| Vitpose-b | Coco + AIC + MPII | 256x192 | 88.0 | 89.6 | configurer | Onedrive |
| Vitpose-l | Coco + AIC + MPII | 256x192 | 90.9 | 92.2 | configurer | Onedrive |
| Vitpose-h | Coco + AIC + MPII | 256x192 | 90.9 | 92.3 | configurer | Onedrive |
| Vitpose-g | Coco + AIC + MPII | 576x432 | 93.3 | 94.3 | ||
| Vitpose-b * | Coco + AIC + MPII + CrowdPose | 256x192 | 88.2 | 90.0 | configurer | Onedrive |
| Vitpose-l * | Coco + AIC + MPII + CrowdPose | 256x192 | 91.5 | 92.8 | configurer | Onedrive |
| Vitpose-h * | Coco + AIC + MPII + CrowdPose | 256x192 | 91.6 | 92.8 | configurer | Onedrive |
| Vitpose + -s | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 78.4 | 80.6 | configurer | Journal | Onedrive |
| Vitpose + -b | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 82.6 | 84.8 | configurer | Journal | Onedrive |
| Vitpose + -l | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 85.7 | 87.5 | configurer | Journal | Onedrive |
| Vitpose + -h | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 85.7 | 87.4 | configurer | Journal | Onedrive |
Résultats sur MPII Val Set
Utilisation de boîtes de délimitation à la terre. Remarque Les configurations ici sont uniquement pour l'évaluation. La métrique est PCKH.
| Modèle | Ensemble de données | Résolution | Signifier | configurer | poids |
|---|---|---|---|---|---|
| Vitpose-b | Coco + AIC + MPII | 256x192 | 93.3 | configurer | Onedrive |
| Vitpose-l | Coco + AIC + MPII | 256x192 | 94.0 | configurer | Onedrive |
| Vitpose-h | Coco + AIC + MPII | 256x192 | 94.1 | configurer | Onedrive |
| Vitpose-g | Coco + AIC + MPII | 576x432 | 94.3 | ||
| Vitpose-b * | Coco + AIC + MPII + CrowdPose | 256x192 | 93.4 | configurer | Onedrive |
| Vitpose-l * | Coco + AIC + MPII + CrowdPose | 256x192 | 93.9 | configurer | Onedrive |
| Vitpose-h * | Coco + AIC + MPII + CrowdPose | 256x192 | 94.1 | configurer | Onedrive |
| Vitpose + -s | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 92.7 | configurer | Journal | Onedrive |
| Vitpose + -b | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 92.8 | configurer | Journal | Onedrive |
| Vitpose + -l | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 94.0 | configurer | Journal | Onedrive |
| Vitpose + -h | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 94.2 | configurer | Journal | Onedrive |
Résultats sur l'ensemble de tests AI Challenger
Utilisation de boîtes de délimitation à la terre. Remarque Les configurations ici sont uniquement pour l'évaluation.
| Modèle | Ensemble de données | Résolution | AP | Ardente | configurer | poids |
|---|---|---|---|---|---|---|
| Vitpose-b | Coco + AIC + MPII | 256x192 | 32.0 | 36.3 | configurer | Onedrive |
| Vitpose-l | Coco + AIC + MPII | 256x192 | 34.5 | 39.0 | configurer | Onedrive |
| Vitpose-h | Coco + AIC + MPII | 256x192 | 35.4 | 39.9 | configurer | Onedrive |
| Vitpose-g | Coco + AIC + MPII | 576x432 | 43.2 | 47.1 | ||
| Vitpose-b * | Coco + AIC + MPII + CrowdPose | 256x192 | 31.9 | 36.3 | configurer | Onedrive |
| Vitpose-l * | Coco + AIC + MPII + CrowdPose | 256x192 | 34.6 | 39.0 | configurer | Onedrive |
| Vitpose-h * | Coco + AIC + MPII + CrowdPose | 256x192 | 35.3 | 39.8 | configurer | Onedrive |
| Vitpose + -s | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 29.7 | 34.3 | configurer | Journal | Onedrive |
| Vitpose + -b | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 31.8 | 36.3 | configurer | Journal | Onedrive |
| Vitpose + -l | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 34.3 | 38.9 | configurer | Journal | Onedrive |
| Vitpose + -h | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 34.8 | 39.1 | configurer | Journal | Onedrive |
Résultats sur l'ensemble de tests CrowdPose
Utilisation du détecteur humain Yolov3. Remarque Les configurations ici sont uniquement pour l'évaluation.
| Modèle | Ensemble de données | Résolution | AP | Ap (h) | configurer | poids |
|---|---|---|---|---|---|---|
| Vitpose-b * | Coco + AIC + MPII + CrowdPose | 256x192 | 74.7 | 63.3 | configurer | Onedrive |
| Vitpose-l * | Coco + AIC + MPII + CrowdPose | 256x192 | 76.6 | 65.9 | configurer | Onedrive |
| Vitpose-h * | Coco + AIC + MPII + CrowdPose | 256x192 | 76.3 | 65.6 | configurer | Onedrive |
Résultats sur l'ensemble de tests AP-10K
| Modèle | Ensemble de données | Résolution | AP | configurer | poids |
|---|---|---|---|---|---|
| Vitpose + -s | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 71.4 | configurer | Journal | Onedrive |
| Vitpose + -b | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 74.5 | configurer | Journal | Onedrive |
| Vitpose + -l | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 80.4 | configurer | Journal | Onedrive |
| Vitpose + -h | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 82.4 | configurer | Journal | Onedrive |
Résultats sur APT-36K VAL SET
| Modèle | Ensemble de données | Résolution | AP | configurer | poids |
|---|---|---|---|---|---|
| Vitpose + -s | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 74.2 | configurer | Journal | Onedrive |
| Vitpose + -b | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 75.9 | configurer | Journal | Onedrive |
| Vitpose + -l | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 80.8 | configurer | Journal | Onedrive |
| Vitpose + -h | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 82.3 | configurer | Journal | Onedrive |
| Modèle | Ensemble de données | Résolution | AP | configurer | poids |
|---|---|---|---|---|---|
| Vitpose + -s | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 54.4 | configurer | Journal | Onedrive |
| Vitpose + -b | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 57.4 | configurer | Journal | Onedrive |
| Vitpose + -l | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 60.6 | configurer | Journal | Onedrive |
| Vitpose + -h | Coco + AIC + MPII + AP10K + APT36K + corps entier | 256x192 | 61.2 | configurer | Journal | Onedrive |
| Modèle | Ensemble de données | Résolution | AUC | configurer | poids |
|---|---|---|---|---|---|
| Vitpose + -s | Coco + aic + mpii + corps entier | 256x192 | 86.5 | configurer | À venir |
| Vitpose + -b | Coco + aic + mpii + corps entier | 256x192 | 87.0 | configurer | À venir |
| Vitpose + -l | Coco + aic + mpii + corps entier | 256x192 | 87.5 | configurer | À venir |
| Vitpose + -h | Coco + aic + mpii + corps entier | 256x192 | 87.6 | configurer | À venir |
[2023-01-10] Mettez à jour Vitpose +! Il utilise des stratégies MOE pour gérer conjointement les tâches d'estimation de la pose humaine, animale et du corps entier.
[2022-05-24] Téléchargez le code d'entraînement à une seule tâche, les modèles pré-formés à une seule tâche et les modèles de pré-tâche multi-tâches.
[2022-05-06] Téléchargez les journaux pour la base, les grands et énormes modèles!
[2022-04-27] Notre vitpose avec Vitae-G obtient 81,1 AP sur le test de test de coco!
Les applications du transformateur Vitae comprennent: Classification d'image | Détection d'objet | Segmentation sémantique | Segmentation de la pose animale | télédétection | Matting | VSA | Vitonner
Nous utilisons Pytorch 1.9.0 ou NGC Docker 21.06 et MMCV 1.3.9 pour les expériences.
git clone https://github.com/open-mmlab/mmcv.git
cd mmcv
git checkout v1.3.9
MMCV_WITH_OPS=1 pip install -e .
cd ..
git clone https://github.com/ViTAE-Transformer/ViTPose.git
cd ViTPose
pip install -v -e .Après avoir installé les deux référentiels, installez Timm et Einops, c'est-à-dire,
pip install timm==0.4.9 einopsAprès avoir téléchargé les modèles pré-entraînés, veuillez mener les expériences en fonctionnant
# for single machine
bash tools/dist_train.sh < Config PATH > < NUM GPUs > --cfg-options model.pretrained= < Pretrained PATH > --seed 0
# for multiple machines
python -m torch.distributed.launch --nnodes < Num Machines > --node_rank < Rank of Machine > --nproc_per_node < GPUs Per Machine > --master_addr < Master Addr > --master_port < Master Port > tools/train.py < Config PATH > --cfg-options model.pretrained= < Pretrained PATH > --launcher pytorch --seed 0Pour tester les performances des modèles pré-entraînés, veuillez exécuter
bash tools/dist_test.sh < Config PATH > < Checkpoint PATH > < NUM GPUs >Pour les modèles Vitpose + pré-formés, veuillez d'abord réorganiser les poids pré-formés en utilisant
python tools/model_split.py --source < Pretrained PATH > Ce courant de réapprovisionnement contient des modifications, notamment:
Télécharger des configurations et des modèles pré-entraînés
Plus de modèles avec les résultats SOTA
Télécharger la configuration de formation multi-tâches
Nous reconnaissons l'excellente implémentation de MMPOSE et MAE.
Pour vitpose
@inproceedings{
xu2022vitpose,
title={Vi{TP}ose: Simple Vision Transformer Baselines for Human Pose Estimation},
author={Yufei Xu and Jing Zhang and Qiming Zhang and Dacheng Tao},
booktitle={Advances in Neural Information Processing Systems},
year={2022},
}
Pour vitpose +
@article{xu2022vitpose+,
title={ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation},
author={Xu, Yufei and Zhang, Jing and Zhang, Qiming and Tao, Dacheng},
journal={arXiv preprint arXiv:2212.04246},
year={2022}
}
Pour Vitae et Vitaev2, veuillez vous référer à:
@article{xu2021vitae,
title={Vitae: Vision transformer advanced by exploring intrinsic inductive bias},
author={Xu, Yufei and Zhang, Qiming and Zhang, Jing and Tao, Dacheng},
journal={Advances in Neural Information Processing Systems},
volume={34},
year={2021}
}
@article{zhang2022vitaev2,
title={ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond},
author={Zhang, Qiming and Xu, Yufei and Zhang, Jing and Tao, Dacheng},
journal={arXiv preprint arXiv:2202.10108},
year={2022}
}