Documentação | Instalação | ? Model zoo | ? Atualizar notícias | Projetos em andamento | ? Problemas de relatório











Inglês | 简体中文
A filial padrão foi alterada para main (Anterior 1.x ) do master (atual 0.x ) e incentivamos os usuários a migrar para a versão mais recente com modelos mais suportados, pontos de verificação mais fortes de treinamento e codificação mais simples. Consulte o Guia de Migração para obter mais detalhes.
Release (2023.10.12) : v1.2.0 com os seguintes novos recursos:
MMACION2 é uma caixa de ferramentas de código aberto para entendimento de vídeo com base em Pytorch. Faz parte do projeto OpenMmlab.


Reconhecimento de ação no Kinetics-400 (esquerda) e reconhecimento de ação baseado em esqueleto no NTU-RGB+D-120 (direita)

Resultados de detecção e reconhecimento de ação e reconhecimento de ação baseados em esqueleto na Kinetics-400

Resultados da Ação Spatio-Temporal em Ava-2.1
Design modular : decompomos uma estrutura de entendimento de vídeo em diferentes componentes. Pode -se facilmente construir uma estrutura de compreensão de vídeo personalizada combinando diferentes módulos.
Apoie cinco tarefas principais de compreensão de vídeo : Mmaction2 implementa vários algoritmos para várias tarefas de compreensão de vídeo, incluindo reconhecimento de ação, localização de ações, detecção de ação espaço-temporal, detecção de ação baseada em esqueletos e recuperação de vídeo.
Bem testado e documentado : Fornecemos documentação detalhada e referência da API, bem como testes de unidade.
Mmaction2 depende de Pytorch, MMCV, MMEngine, MmDetection (Opcional) e Mmpose (Opcional).
Consulte o install.md para obter instruções detalhadas.
conda create --name openmmlab python=3.8 -y
conda activate openmmlab
conda install pytorch torchvision -c pytorch # This command will automatically install the latest version PyTorch and cudatoolkit, please check whether they match your environment.
pip install -U openmim
mim install mmengine
mim install mmcv
mim install mmdet # optional
mim install mmpose # optional
git clone https://github.com/open-mmlab/mmaction2.git
cd mmaction2
pip install -v -e . Resultados e modelos estão disponíveis no zoológico do modelo.
| Reconhecimento de ação | ||||
| C3D (CVPR'2014) | TSN (ECCV'2016) | I3d (cvpr'2017) | C2D (CVPR'2018) | I3d não local (CVPR'2018) |
| R (2+1) D (CVPR'2018) | TRN (ECCV'2018) | TSM (ICCV'2019) | TSM não local (ICCV'2019) | Slowonly (ICCV'2019) |
| SlowFast (ICCV'2019) | CSN (ICCV'2019) | Estanho (aaai'2020) | TPN (CVPR'2020) | X3D (CVPR'2020) |
| Multimodalidade: Áudio (Arxiv'2020) | Tanet (Arxiv'2020) | TimesFormer (ICML'2021) | ActionClip (Arxiv'2021) | Vídeo (CVPR'2022) |
| Videomae (Neurips'2022) | MVIT V2 (CVPR'2022) | Uniformor v1 (iclr'2022) | Uniformer v2 (arxiv'2022) | Videomae V2 (CVPR'2023) |
| Localização de ação | ||||
| BSN (ECCV'2018) | BMN (ICCV'2019) | TCANET (CVPR'2021) | ||
| Detecção de ação espaço-temporal | ||||
| ACRN (ECCV'2018) | Slowonly+Fast R-CNN (ICCV'2019) | SlowFast+Fast R-CNN (ICCV'2019) | LFB (CVPR'2019) | Videomae (Neurips'2022) |
| Reconhecimento de ação baseado em esqueleto | ||||
| ST-GCN (AAAI'2018) | 2S-AGCN (CVPR'2019) | Posec3d (CVPR'2022) | Stgcn ++ (arxiv'2022) | CTRGCN (CVPR'2021) |
| MSG3D (CVPR'2020) | ||||
| Recuperação em vídeo | ||||
| Clip4clip (arxiv'2022) | ||||
| Reconhecimento de ação | |||
| HMDB51 (página inicial) (ICCV'2011) | UCF101 (página inicial) (CRCV-IR-12-01) | AtividadeNet (página inicial) (CVPR'2015) | Cinetics- [400/600/700] (página inicial) (CVPR'2017) |
| STHV1 (ICCV'2017) | STHV2 (página inicial) (ICCV'2017) | Diving48 (página inicial) (ECCV'2018) | Jester (página inicial) (ICCV'2019) |
| Momentos no tempo (página inicial) (tpami'2019) | Multimomentos no tempo (página inicial) (Arxiv'2019) | HVU (página inicial) (ECCV'2020) | Omnisource (página inicial) (ECCV'2020) |
| Finegym (página inicial) (CVPR'2020) | Kinetics-710 (página inicial) (Arxiv'2022) | ||
| Localização de ação | |||
| Thumos14 (página inicial) (Thumos Challenge 2014) | AtividadeNet (página inicial) (CVPR'2015) | HACS (página inicial) (ICCV'2019) | |
| Detecção de ação espaço-temporal | |||
| UCF101-24* (página inicial) (CRCV-IR-12-01) | Jhmdb* (página inicial) (ICCV'2015) | Ava (página inicial) (CVPR'2018) | Ava-Simetics (página inicial) (Arxiv'2020) |
| Multisports (página inicial) (ICCV'2021) | |||
| Reconhecimento de ação baseado em esqueleto | |||
| Posec3d-Finegym (página inicial) (Arxiv'2021) | Posec3d-nturgb+d (página inicial) (arxiv'2021) | POSEC3D-UCF101 (página inicial) (Arxiv'2021) | POSEC3D-HMDB51 (página inicial) (Arxiv'2021) |
| Recuperação em vídeo | |||
| MSRVTT (página inicial) (CVPR'2016) | |||
Para tutoriais, fornecemos os seguintes guias de usuário para uso básico:
Este projeto é lançado sob a licença Apache 2.0.
Se você achar este projeto útil em sua pesquisa, considere citar:
@misc { 2020mmaction2 ,
title = { OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark } ,
author = { MMAction2 Contributors } ,
howpublished = { url{https://github.com/open-mmlab/mmaction2} } ,
year = { 2020 }
}Agradecemos todas as contribuições para melhorar o Mmaction2. Consulte o contribuindo.md no MMCV para obter mais detalhes sobre a diretriz contribuinte.
O MMACTION2 é um projeto de código aberto que é contribuído por pesquisadores e engenheiros de várias faculdades e empresas. Agradecemos a todos os colaboradores que implementam seus métodos ou adicionam novos recursos e usuários que fornecem feedback valioso. Desejamos que a caixa de ferramentas e a referência possam servir à crescente comunidade de pesquisa, fornecendo um kit de ferramentas flexível para reimplementar os métodos existentes e desenvolver seus novos modelos.