Documentation | Installation | ? Modèle Zoo | ? Mettre à jour les nouvelles | Projets en cours | ? Reporter des problèmes











Anglais | 简体中文
La branche par défaut a été transférée à main ( 1.x précédent) à partir de master (actuel 0.x ), et nous encourageons les utilisateurs à migrer vers la dernière version avec des modèles plus pris en charge, des points de contrôle pré-entraînement plus forts et un codage plus simple. Veuillez vous référer au guide de migration pour plus de détails.
Version (2023.10.12) : v1.2.0 avec les nouvelles fonctionnalités suivantes:
MMAction2 est une boîte à outils open source pour la compréhension vidéo basée sur Pytorch. Cela fait partie du projet OpenMMLAB.


Reconnaissance d'action sur la cinétique-400 (à gauche) et la reconnaissance d'action basée sur le squelette sur NTU-RGB + D-120 (à droite)

Résultats de détection d'action spatio-temporelle basée sur le squelette et de reconnaissance d'action sur la cinétique-400

Résultats de détection d'action spatio-temporelle sur AVA-2.1
Conception modulaire : nous décomposons un cadre de compréhension vidéo en différents composants. On peut facilement construire un cadre de compréhension vidéo personnalisé en combinant différents modules.
Prise en charge de cinq tâches de compréhension vidéo principales : MMAction2 implémente divers algorithmes pour plusieurs tâches de compréhension vidéo, notamment la reconnaissance de l'action, la localisation de l'action, la détection d'action spatio-temporelle, la détection d'action basée sur le squelette et la récupération vidéo.
Bien testé et documenté : nous fournissons une documentation détaillée et une référence de l'API, ainsi que des tests unitaires.
MMAction2 dépend de pytorch, mmcv, mmengine, mmdection (facultatif) et mMPose (facultatif).
Veuillez vous référer à install.md pour des instructions détaillées.
conda create --name openmmlab python=3.8 -y
conda activate openmmlab
conda install pytorch torchvision -c pytorch # This command will automatically install the latest version PyTorch and cudatoolkit, please check whether they match your environment.
pip install -U openmim
mim install mmengine
mim install mmcv
mim install mmdet # optional
mim install mmpose # optional
git clone https://github.com/open-mmlab/mmaction2.git
cd mmaction2
pip install -v -e . Les résultats et les modèles sont disponibles dans le Zoo du modèle.
| Reconnaissance d'action | ||||
| C3D (CVPR'2014) | TSN (ECCV'2016) | I3d (cvpr'2017) | C2D (CVPR'2018) | I3d non local (CVPR'2018) |
| R (2 + 1) D (CVPR'2018) | TRN (ECCV'2018) | TSM (ICCV'2019) | TSM non local (ICCV'2019) | Slowonly (ICCV'2019) |
| Slowfast (ICCV'2019) | CSN (ICCV'2019) | Étain (aaai'2020) | TPN (CVPR'2020) | X3d (CVPR'2020) |
| Multimodalité: Audio (Arxiv'2020) | TANET (ARXIV'2020) | TimesFormer (ICMl'2021) | ActionClip (Arxiv'2021) | Videoswin (CVPR'2022) |
| Videomae (Neirips'2022) | MVIT V2 (CVPR'2022) | Uniformer v1 (ICLR'2022) | Uniformer V2 (Arxiv'2022) | Videomae V2 (CVPR'2023) |
| Localisation d'action | ||||
| BSN (ECCV'2018) | BMN (ICCV'2019) | TCANET (CVPR'2021) | ||
| Détection d'action spatio-temporelle | ||||
| ACRN (ECCV'2018) | Slowonly + Fast R-CNN (ICCV'2019) | Slowfast + Fast R-CNN (ICCV'2019) | LFB (CVPR'2019) | Videomae (Neirips'2022) |
| Reconnaissance d'action basée sur le squelette | ||||
| ST-GCN (AAAI'2018) | 2S-AGCN (CVPR'2019) | POSEC3D (CVPR'2022) | STGCN ++ (Arxiv'2022) | CTRGCN (CVPR'2021) |
| MSG3D (CVPR'2020) | ||||
| Récupération vidéo | ||||
| Clip4clip (arXiv'2022) | ||||
| Reconnaissance d'action | |||
| HMDB51 (page d'accueil) (ICCV'2011) | UCF101 (page d'accueil) (CRCV-IR-12-01) | ActivityNet (page d'accueil) (CVPR'2015) | Kinetics- [400/600/700] (page d'accueil) (CVPR'2017) |
| STHV1 (ICCV'2017) | STHV2 (page d'accueil) (ICCV'2017) | Diving48 (page d'accueil) (ECCV'2018) | Jester (page d'accueil) (ICCV'2019) |
| Moments dans le temps (page d'accueil) (tpami'2019) | Multi-moments dans le temps (page d'accueil) (Arxiv'2019) | HVU (page d'accueil) (ECCV'2020) | OmniSource (page d'accueil) (ECCV'2020) |
| Finegym (page d'accueil) (CVPR'2020) | Kinetics-710 (page d'accueil) (Arxiv'2022) | ||
| Localisation d'action | |||
| Thumos14 (page d'accueil) (Thumos Challenge 2014) | ActivityNet (page d'accueil) (CVPR'2015) | HACS (page d'accueil) (ICCV'2019) | |
| Détection d'action spatio-temporelle | |||
| UCF101-24 * (page d'accueil) (CRCV-IR-12-01) | JHMDB * (page d'accueil) (ICCV'2015) | Ava (page d'accueil) (CVPR'2018) | Ava-kinetics (page d'accueil) (arxiv'2020) |
| Multisports (page d'accueil) (ICCV'2021) | |||
| Reconnaissance d'action basée sur le squelette | |||
| Posec3d-finegym (page d'accueil) (arxiv'2021) | Posec3d-nturgb + d (page d'accueil) (arxiv'2021) | POSEC3D-UCF101 (page d'accueil) (Arxiv'2021) | POSEC3D-HMDB51 (page d'accueil) (Arxiv'2021) |
| Récupération vidéo | |||
| MSRVTT (page d'accueil) (CVPR'2016) | |||
Pour les tutoriels, nous fournissons les guides utilisateur suivants pour l'utilisation de base:
Ce projet est publié sous la licence Apache 2.0.
Si vous trouvez ce projet utile dans vos recherches, veuillez envisager citer:
@misc { 2020mmaction2 ,
title = { OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark } ,
author = { MMAction2 Contributors } ,
howpublished = { url{https://github.com/open-mmlab/mmaction2} } ,
year = { 2020 }
}Nous apprécions toutes les contributions pour améliorer MMAction2. Veuillez vous référer à contribution.md dans MMCV pour plus de détails sur la directive contributive.
MMAction2 est un projet open-source qui est apporté par des chercheurs et des ingénieurs de divers collèges et entreprises. Nous apprécions tous les contributeurs qui mettent en œuvre leurs méthodes ou ajoutent de nouvelles fonctionnalités et utilisateurs qui donnent des commentaires précieux. Nous souhaitons que la boîte à outils et la référence puissent servir la communauté de recherche croissante en fournissant une boîte à outils flexible pour réimplémenter les méthodes existantes et développer leurs nouveaux modèles.