Documentación | Instalación | ? Zoológico modelo | ? ACTUALIZACIÓN Noticias | Proyectos en curso | ? Problemas de informes











Inglés | 简体中文
La rama predeterminada se ha cambiado a main (anterior 1.x ) del master (actual 0.x ), y alentamos a los usuarios a migrar a la última versión con modelos más compatibles, puntos de control de pre-entrenamiento más fuertes y una codificación más simple. Consulte la Guía de migración para obtener más detalles.
Release (2023.10.12) : v1.2.0 con las siguientes características nuevas:
MMACTION2 es una caja de herramientas de código abierto para la comprensión de video basada en Pytorch. Es parte del proyecto OpenMMLab.


Reconocimiento de acción en Kinetics-400 (izquierda) y reconocimiento de acción basado en esqueletos en NTU-RGB+D-120 (derecha)

Resultados de detección de acción y reconocimiento de acción espacio-temporal basado en esqueletos en Kinetics-400

Resultados de detección de acción espacio-temporal en AVA-2.1
Diseño modular : descomponemos un marco de comprensión de video en diferentes componentes. Uno puede construir fácilmente un marco de comprensión de video personalizado combinando diferentes módulos.
Apoya cinco tareas principales de comprensión de video : MMACTION2 implementa varios algoritmos para múltiples tareas de comprensión de video, incluida el reconocimiento de acción, la localización de la acción, la detección de acción espacio-temporal, la detección de acción basada en esqueletos y la recuperación de videos.
Bien probado y documentado : proporcionamos documentación detallada y referencia de API, así como pruebas unitarias.
MMACTION2 depende de Pytorch, MMCV, MMEngine, MmDetection (Opcional) y MMPose (opcional).
Consulte Install.md para obtener instrucciones detalladas.
conda create --name openmmlab python=3.8 -y
conda activate openmmlab
conda install pytorch torchvision -c pytorch # This command will automatically install the latest version PyTorch and cudatoolkit, please check whether they match your environment.
pip install -U openmim
mim install mmengine
mim install mmcv
mim install mmdet # optional
mim install mmpose # optional
git clone https://github.com/open-mmlab/mmaction2.git
cd mmaction2
pip install -v -e . Los resultados y los modelos están disponibles en el zoológico del modelo.
| Reconocimiento de acción | ||||
| C3D (CVPR'2014) | TSN (ECCV'2016) | I3D (CVPR'2017) | C2D (CVPR'2018) | I3D no local (CVPR'2018) |
| R (2+1) D (CVPR'2018) | TRN (ECCV'2018) | TSM (ICCV'2019) | TSM no local (ICCV'2019) | Slowonly (ICCV'2019) |
| Slowfast (ICCV'2019) | CSN (ICCV'2019) | Lata (aaai'2020) | TPN (CVPR'2020) | X3D (CVPR'2020) |
| Multimodalidad: Audio (ARXIV'2020) | Taneta (arxiv'2020) | Timesformer (ICML'2021) | ActionClip (ARXIV'2021) | Videoswin (CVPR'2022) |
| Videomae (Neurips'2022) | MVIT V2 (CVPR'2022) | Uniformador V1 (ICLR'2022) | Uniformador V2 (ARXIV'2022) | Videomae V2 (CVPR'2023) |
| Localización de acción | ||||
| BSN (ECCV'2018) | BMN (ICCV'2019) | TCANET (CVPR'2021) | ||
| Detección de acción espacio-temporal | ||||
| ACRN (ECCV'2018) | SlowOnly+Fast R-CNN (ICCV'2019) | Slowfast+Fast R-CNN (ICCV'2019) | LFB (CVPR'2019) | Videomae (Neurips'2022) |
| Reconocimiento de acción basado en esqueleto | ||||
| ST-GCN (AAAI'2018) | 2S-AGCN (CVPR'2019) | POSEC3D (CVPR'2022) | STGCN ++ (ARXIV'2022) | CTRGCN (CVPR'2021) |
| MSG3D (CVPR'2020) | ||||
| Recuperación de videos | ||||
| Clip4clip (arxiv'2022) | ||||
| Reconocimiento de acción | |||
| HMDB51 (página de inicio) (ICCV'2011) | UCF101 (página de inicio) (CRCV-IR-12-01) | ActivityNet (página de inicio) (CVPR'2015) | Cinética- [400/600/700] (página de inicio) (CVPR'2017) |
| STHV1 (ICCV'2017) | STHV2 (página de inicio) (ICCV'2017) | Diving48 (página de inicio) (ECCV'2018) | Jester (página de inicio) (ICCV'2019) |
| Momentos en el tiempo (página de inicio) (TPAMI'2019) | Mótanos en el tiempo (página de inicio) (ARXIV'2019) | HVU (página de inicio) (ECCV'2020) | Omnisource (página de inicio) (ECCV'2020) |
| FineGym (página de inicio) (CVPR'2020) | Kinetics-710 (página de inicio) (ARXIV'2022) | ||
| Localización de acción | |||
| Thumos14 (Página de inicio) (Thumos Challenge 2014) | ActivityNet (página de inicio) (CVPR'2015) | HACS (página de inicio) (ICCV'2019) | |
| Detección de acción espacio-temporal | |||
| UCF101-24* (página de inicio) (CRCV-IR-12-01) | Jhmdb* (página de inicio) (ICCV'2015) | AVA (página de inicio) (CVPR'2018) | Ava-Kinetics (página de inicio) (ARXIV'2020) |
| Multiestesports (página de inicio) (ICCV'2021) | |||
| Reconocimiento de acción basado en esqueleto | |||
| POSEC3D-Finegym (página de inicio) (ARXIV'2021) | POSEC3D-NTURGB+D (página de inicio) (ARXIV'2021) | POSEC3D-UCF101 (página de inicio) (ARXIV'2021) | POSEC3D-HMDB51 (Página de inicio) (ARXIV'2021) |
| Recuperación de videos | |||
| MSRVTT (página de inicio) (CVPR'2016) | |||
Para los tutoriales, proporcionamos las siguientes guías de usuario para el uso básico:
Este proyecto se publica bajo la licencia Apache 2.0.
Si encuentra útil este proyecto en su investigación, considere citar:
@misc { 2020mmaction2 ,
title = { OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark } ,
author = { MMAction2 Contributors } ,
howpublished = { url{https://github.com/open-mmlab/mmaction2} } ,
year = { 2020 }
}Apreciamos todas las contribuciones para mejorar MMACTION2. Consulte Contriping.MD en MMCV para obtener más detalles sobre la guía contribuyente.
MMACTION2 es un proyecto de código abierto que contribuyen con investigadores e ingenieros de varias universidades y empresas. Apreciamos a todos los contribuyentes que implementan sus métodos o agregan nuevas características y usuarios que brindan comentarios valiosos. Deseamos que la caja de herramientas y el punto de referencia puedan servir a la creciente comunidad de investigación al proporcionar un conjunto de herramientas flexible para reimplinar los métodos existentes y desarrollar sus nuevos modelos.