Dokumentation | Installation | Modellzoo | "Update News | Laufende Projekte | Meldungsprobleme











Englisch | 简体中文
Die Standardzweig wurde von master (Current 0.x ) auf main (frühere 1.x ) umgestellt, und wir ermutigen die Benutzer, mit mehr unterstützten Modellen, stärkeren Checkpoints vor dem Training und einer einfacheren Codierung auf die neueste Version zu migrieren. Weitere Informationen finden Sie im Migrationshandbuch.
Release (2023.10.12) : v1.2.0 mit den folgenden neuen Funktionen:
MMACTION2 ist eine Open-Source-Toolbox für Videoverständnisse basierend auf Pytorch. Es ist Teil des OpenMMLAB -Projekts.


Aktionserkennung auf Kinetik-400 (links) und Skelettbasis Aktionserkennung auf NTU-RGB+D-120 (rechts)

Skelettbasierte räumlich-zeitliche Aktionserkennung und Aktionserkennungsergebnisse zur Kinetik-400

Räumlich-zeitliche Aktionserkennungsergebnisse auf AVA-2.1
Modulares Design : Wir zerlegen ein Videoverständnis -Framework in verschiedene Komponenten. Man kann ein individuelles Videoverständnis -Framework durch Kombination verschiedener Module problemlos konstruieren.
Unterstützen Sie fünf Hauptaufgaben für Videoverständnisse : MMACTION2 implementiert verschiedene Algorithmen für mehrere Videoverständnisaufgaben, einschließlich Aktionserkennung, Aktionslokalisierung, räumlich-zeitlicher Aktionserkennung, skelettbasiertes Aktionserkennung und Videoabruf.
Gut getestet und dokumentiert : Wir bieten detaillierte Dokumentation und API -Referenz sowie Unit -Tests.
MMACTION2 hängt von Pytorch, MMCV, Mmengine, mmdetektion (optional) und MM -Pose (optional) ab.
Weitere detaillierte Anweisungen finden Sie unter install.md.
conda create --name openmmlab python=3.8 -y
conda activate openmmlab
conda install pytorch torchvision -c pytorch # This command will automatically install the latest version PyTorch and cudatoolkit, please check whether they match your environment.
pip install -U openmim
mim install mmengine
mim install mmcv
mim install mmdet # optional
mim install mmpose # optional
git clone https://github.com/open-mmlab/mmaction2.git
cd mmaction2
pip install -v -e . Ergebnisse und Modelle sind im Modellzoo verfügbar.
| Aktionserkennung | ||||
| C3D (CVPR'2014) | TSN (ECCV'2016) | I3d (cvpr'2017) | C2D (CVPR'2018) | I3d nicht lokal (cvpr'2018) |
| R (2+1) d (cvpr'2018) | TRN (ECCV'2018) | TSM (ICCV'2019) | TSM nicht-lokal (ICCV'2019) | Langsam (ICCV'2019) |
| SlowFast (ICCV'2019) | CSN (ICCV'2019) | Zinn (aaai'2020) | TPN (CVPR'2020) | X3d (cvpr'2020) |
| Multimodalität: Audio (Arxiv'2020) | Tanet (Arxiv'2020) | Timesformer (ICML'2021) | Actionclip (arxiv'2021) | Videoswin (CVPR'2022) |
| Videomae (Neurips'2022) | MVIT V2 (CVPR'2022) | Uniformier V1 (ICLR'2022) | Uniformier V2 (Arxiv'2022) | Videomae v2 (cvpr'2023) |
| Aktionslokalisierung | ||||
| BSN (ECCV'2018) | BMN (ICCV'2019) | Tcanet (cvpr'2021) | ||
| Räumlich-zeitliche Aktionserkennung | ||||
| ACRN (ECCV'2018) | SlowOnly+schneller R-CNN (ICCV'2019) | SlowFast+Fast R-CNN (ICCV'2019) | LFB (CVPR'2019) | Videomae (Neurips'2022) |
| Skelettbasierte Aktionserkennung | ||||
| ST-GCN (aaai'2018) | 2S-Agcn (CVPR'2019) | Posec3d (CVPR'2022) | STGCN ++ (Arxiv'2022) | CTRGCN (CVPR'2021) |
| MSG3D (CVPR'2020) | ||||
| Video -Abruf | ||||
| Clip4Clip (Arxiv'2022) | ||||
| Aktionserkennung | |||
| HMDB51 (Homepage) (ICCV'2011) | UCF101 (Homepage) (CRCV-IR-12-01) | ActivityNet (Homepage) (CVPR'2015) | Kinetik- [400/600/700] (Homepage) (CVPR'2017) |
| STHV1 (ICCV'2017) | STHV2 (Homepage) (ICCV'2017) | Diving48 (Homepage) (ECCV'2018) | Jester (Homepage) (ICCV'2019) |
| Momente in der Zeit (Homepage) (tpami'2019) | Multi-Momente in der Zeit (Homepage) (Arxiv'2019) | HVU (Homepage) (ECCV'2020) | Omnisource (Homepage) (ECCV'2020) |
| Ingegyman (Homepage) (CVPR'2020) | Kinetics-710 (Homepage) (Arxiv'2022) | ||
| Aktionslokalisierung | |||
| Thumos14 (Homepage) (Thumos Challenge 2014) | ActivityNet (Homepage) (CVPR'2015) | HACS (Homepage) (ICCV'2019) | |
| Räumlich-zeitliche Aktionserkennung | |||
| UCF101-24* (Homepage) (CRCV-IR-12-01) | JHMDB* (Homepage) (ICCV'2015) | AVA (Homepage) (CVPR'2018) | Ava-kinetik (Homepage) (Arxiv'2020) |
| Multisports (Homepage) (ICCV'2021) | |||
| Skelettbasierte Aktionserkennung | |||
| Poec3d-finegym (homepage) (arxiv'2021) | Posec3d-nturgb+d (Homepage) (Arxiv'2021) | Posec3d-UCF101 (Homepage) (Arxiv'2021) | Posec3d-HMDB51 (Homepage) (Arxiv'2021) |
| Video -Abruf | |||
| MSRVTT (Homepage) (CVPR'2016) | |||
Für Tutorials bieten wir die folgenden Benutzerführer für die grundlegende Nutzung:
Dieses Projekt wird unter der Apache 2.0 -Lizenz veröffentlicht.
Wenn Sie dieses Projekt in Ihrer Forschung nützlich finden, sollten Sie zitieren:
@misc { 2020mmaction2 ,
title = { OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark } ,
author = { MMAction2 Contributors } ,
howpublished = { url{https://github.com/open-mmlab/mmaction2} } ,
year = { 2020 }
}Wir schätzen alle Beiträge zur Verbesserung von MMACTION2. Weitere Informationen zum beitragenden Richtlinie finden Sie unter beitragen.md in MMCV.
MMACTION2 ist ein Open-Source-Projekt, das von Forschern und Ingenieuren verschiedener Hochschulen und Unternehmen beigetragen wird. Wir schätzen alle Mitwirkenden, die ihre Methoden implementieren oder neue Funktionen hinzufügen, und Benutzer, die wertvolles Feedback geben. Wir wünschen uns, dass die Toolbox und der Benchmark der wachsenden Forschungsgemeinschaft dienen könnten, indem wir ein flexibles Toolkit zur Neuauflage bestehender Methoden bereitstellen und ihre neuen Modelle entwickeln.