ドキュメント|インストール| ?モデル動物園| ?ニュースを更新|進行中のプロジェクト| ?報告の問題











英語| 简体中文
デフォルトのブランチは、 master (現在の0.x )からmain (以前の1.x )に切り替えられており、よりサポートされているモデル、より強力なトレーニング前のチェックポイント、よりシンプルなコーディングで最新バージョンに移行することをお勧めします。詳細については、移行ガイドを参照してください。
リリース(2023.10.12) :v1.2.0次の新機能を備えています。
MMACTION2は、Pytorchに基づいたビデオ理解のためのオープンソースツールボックスです。 OpenMMLabプロジェクトの一部です。


Kinetics-400(左)およびスケルトンベースのアクション認識NTU-RGB+D-120(右)のアクション認識(右)

スケルトンベースの時空間アクション検出と動態認識結果400

AVA-2.1での時空間アクション検出結果
モジュラー設計:ビデオ理解フレームワークをさまざまなコンポーネントに分解します。さまざまなモジュールを組み合わせることで、カスタマイズされたビデオ理解フレームワークを簡単に作成できます。
5つの主要なビデオ理解タスクをサポートします。MMACTION2は、アクション認識、アクションローカリゼーション、時空間アクション検出、スケルトンベースのアクション検出、ビデオ検索など、複数のビデオ理解タスクのためのさまざまなアルゴリズムを実装します。
よくテストされ、文書化されています:詳細なドキュメントとAPIリファレンス、および単体テストを提供します。
MMACTION2は、Pytorch、MMCV、Mmengine、MMDeTection(オプション)、MMPOSE(オプション)に依存します。
詳細な手順については、install.mdを参照してください。
conda create --name openmmlab python=3.8 -y
conda activate openmmlab
conda install pytorch torchvision -c pytorch # This command will automatically install the latest version PyTorch and cudatoolkit, please check whether they match your environment.
pip install -U openmim
mim install mmengine
mim install mmcv
mim install mmdet # optional
mim install mmpose # optional
git clone https://github.com/open-mmlab/mmaction2.git
cd mmaction2
pip install -v -e . 結果とモデルは、モデル動物園で利用できます。
| アクション認識 | ||||
| C3D(CVPR'2014) | TSN(ECCV'2016) | I3D(CVPR'2017) | C2D(CVPR'2018) | I3D Non-Local(CVPR'2018) |
| R(2+1)D(CVPR'2018) | TRN(ECCV'2018) | TSM(ICCV'2019) | TSM Non-Local(ICCV'2019) | Slowonly(ICCV'2019) |
| Slowfast(ICCV'2019) | CSN(ICCV'2019) | ティン(aaai'2020) | TPN(CVPR'2020) | x3d(cvpr'2020) |
| マルチモダリティ:オーディオ(arxiv'2020) | Tanet(arxiv'2020) | TimeFormer(ICML'2021) | ActionClip(arxiv'2021) | Videoswin(CVPR'2022) |
| VideoMaMe(Neurips'2022) | MVIT V2(CVPR'2022) | 均一V1(ICLR'2022) | 均一V2(arxiv'2022) | VideoMaMe V2(CVPR'2023) |
| アクションローカリゼーション | ||||
| BSN(ECCV'2018) | BMN(ICCV'2019) | TCanet(CVPR'2021) | ||
| 時空間アクション検出 | ||||
| ACRN(ECCV'2018) | slowonly+fast r-cnn(iccv'2019) | Slowfast+Fast R-CNN(ICCV'2019) | LFB(CVPR'2019) | VideoMaMe(Neurips'2022) |
| スケルトンベースのアクション認識 | ||||
| st-gcn(aaai'2018) | 2S-AGCN(CVPR'2019) | POSEC3D(CVPR'2022) | stgcn ++(arxiv'2022) | ctrgcn(cvpr'2021) |
| MSG3D(CVPR'2020) | ||||
| ビデオ検索 | ||||
| clip4clip(arxiv'2022) | ||||
| アクション認識 | |||
| HMDB51(ホームページ)(ICCV'2011) | UCF101(ホームページ)(CRCV-IR-12-01) | ActivityNet(ホームページ)(CVPR'2015) | 速度論 - [400/600/700](ホームページ)(CVPR'2017) |
| STHV1(ICCV'2017) | STHV2(ホームページ)(ICCV'2017) | diving48(ホームページ)(eccv'2018) | Jester(Homepage)(ICCV'2019) |
| 瞬間(ホームページ)(TPAMI'2019) | マルチモーメントインタイム(ホームページ)(arxiv'2019) | HVU(ホームページ)(ECCV'2020) | Omnisource(HomePage)(ECCV'2020) |
| FineGym(ホームページ)(CVPR'2020) | Kinetics-710(ホームページ)(arxiv'2022) | ||
| アクションローカリゼーション | |||
| Thumos14(ホームページ)(Thumos Challenge 2014) | ActivityNet(ホームページ)(CVPR'2015) | HACS(ホームページ)(ICCV'2019) | |
| 時空間アクション検出 | |||
| UCF101-24*(ホームページ)(CRCV-IR-12-01) | jhmdb*(ホームページ)(ICCV'2015) | AVA(ホームページ)(CVPR'2018) | Ava-Kinetics(ホームページ)(arxiv'2020) |
| Multisports(HomePage)(ICCV'2021) | |||
| スケルトンベースのアクション認識 | |||
| posec3d-finegym(ホームページ)(arxiv'2021) | posec3d-nturgb+d(homepage)(arxiv'2021) | posec3d-ucf101(ホームページ)(arxiv'2021) | posec3d-hmdb51(ホームページ)(arxiv'2021) |
| ビデオ検索 | |||
| MSRVTT(ホームページ)(CVPR'2016) | |||
チュートリアルについては、基本的な使用法のために次のユーザーガイドを提供します。
このプロジェクトは、Apache 2.0ライセンスの下でリリースされます。
このプロジェクトがあなたの研究で役立つと思う場合は、引用を検討してください。
@misc { 2020mmaction2 ,
title = { OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark } ,
author = { MMAction2 Contributors } ,
howpublished = { url{https://github.com/open-mmlab/mmaction2} } ,
year = { 2020 }
}MMACTION2を改善するためのすべての貢献に感謝します2。貢献ガイドラインの詳細については、MMCVのContributing.mdを参照してください。
MMACTION2は、さまざまな大学や企業の研究者やエンジニアによって提供されるオープンソースプロジェクトです。メソッドを実装したり、貴重なフィードバックを提供する新機能とユーザーを追加したすべての貢献者に感謝しています。ツールボックスとベンチマークが、既存の方法を再実装して新しいモデルを開発するための柔軟なツールキットを提供することにより、成長する研究コミュニティに役立つことを願っています。