เอกสาร การติดตั้ง ? Model Zoo | อัปเดตข่าว | โครงการต่อเนื่อง ปัญหาการรายงาน











ภาษาอังกฤษ | 简体中文
สาขาเริ่มต้นได้ถูกเปลี่ยนเป็น main (ก่อนหน้า 1.x ) จาก master (ปัจจุบัน 0.x ) และเราขอแนะนำให้ผู้ใช้โยกย้ายไปยังเวอร์ชันล่าสุดด้วยรุ่นที่รองรับมากขึ้นจุดตรวจสอบก่อนการฝึกอบรมที่แข็งแกร่งขึ้นและการเข้ารหัสที่ง่ายขึ้น โปรดดูคู่มือการย้ายถิ่นสำหรับรายละเอียดเพิ่มเติม
ปล่อย (2023.10.12) : v1.2.0 พร้อมคุณสมบัติใหม่ต่อไปนี้:
MMAction2 เป็นกล่องเครื่องมือโอเพนซอร์ซสำหรับการทำความเข้าใจวิดีโอตาม Pytorch มันเป็นส่วนหนึ่งของโครงการ OpenMMLAB


การรับรู้การดำเนินการเกี่ยวกับ Kinetics-400 (ซ้าย) และการรับรู้การกระทำตามโครงกระดูกบน NTU-RGB+D-120 (ขวา)

ผลการตรวจจับการดำเนินการเชิงพื้นที่ตามโครงกระดูกและการรับรู้การรับรู้การกระทำบน Kinetics-400

ผลการตรวจจับการกระทำแบบ Spatio-Temporal บน AVA-2.1
การออกแบบแบบแยกส่วน : เราย่อยสลายกรอบความเข้าใจวิดีโอเป็นส่วนประกอบที่แตกต่างกัน หนึ่งสามารถสร้างกรอบการทำความเข้าใจวิดีโอที่กำหนดเองได้อย่างง่ายดายโดยการรวมโมดูลที่แตกต่างกัน
สนับสนุนงานการทำความเข้าใจวิดีโอที่สำคัญห้าอย่าง : MMACTION2 ใช้อัลกอริทึมต่างๆสำหรับงานการทำความเข้าใจวิดีโอหลายรายการรวมถึงการจดจำการกระทำการแปลการกระทำการตรวจจับการกระทำเชิงพื้นที่การตรวจจับการดำเนินการตามโครงกระดูกและการดึงวิดีโอ
ทดสอบและบันทึกไว้อย่างดี : เราให้บริการเอกสารโดยละเอียดและการอ้างอิง API รวมถึงการทดสอบหน่วย
MMAction2 ขึ้นอยู่กับ Pytorch, MMCV, MMENGINE, MMDETECTION (ไม่บังคับ) และ MMPOSE (ไม่บังคับ)
โปรดดูที่ Install.md สำหรับคำแนะนำโดยละเอียด
conda create --name openmmlab python=3.8 -y
conda activate openmmlab
conda install pytorch torchvision -c pytorch # This command will automatically install the latest version PyTorch and cudatoolkit, please check whether they match your environment.
pip install -U openmim
mim install mmengine
mim install mmcv
mim install mmdet # optional
mim install mmpose # optional
git clone https://github.com/open-mmlab/mmaction2.git
cd mmaction2
pip install -v -e . ผลลัพธ์และรุ่นมีอยู่ในสวนสัตว์รุ่น
| การจดจำการกระทำ | ||||
| C3D (cvpr'2014) | TSN (ECCV'2016) | i3d (cvpr'2017) | C2D (cvpr'2018) | i3d non-local (cvpr'2018) |
| r (2+1) d (cvpr'2018) | TRN (ECCV'2018) | TSM (ICCV'2019) | TSM non-local (ICCV'2019) | slowonly (iccv'2019) |
| slowfast (ICCV'2019) | CSN (ICCV'2019) | ดีบุก (aaai'2020) | tpn (cvpr'2020) | x3d (cvpr'2020) |
| Multimodality: Audio (Arxiv'2020) | Tanet (Arxiv'2020) | TimesFormer (ICML'2021) | ActionClip (Arxiv'2021) | VideoSwin (cvpr'2022) |
| Videomae (Neurips'2022) | MVIT V2 (CVPR'2022) | เครื่องแบบ V1 (ICLR'2022) | เครื่องแบบ V2 (Arxiv'2022) | Videomae v2 (cvpr'2023) |
| การแปลการกระทำ | ||||
| BSN (ECCV'2018) | BMN (ICCV'2019) | tcanet (cvpr'2021) | ||
| การตรวจจับการกระทำแบบ Spatio-Temporal | ||||
| ACRN (ECCV'2018) | Slowonly+Fast R-CNN (ICCV'2019) | slowfast+Fast R-CNN (ICCV'2019) | LFB (cvpr'2019) | Videomae (Neurips'2022) |
| การจดจำการกระทำตามโครงกระดูก | ||||
| ST-GCN (Aaai'2018) | 2S-AGCN (CVPR'2019) | posec3d (cvpr'2022) | stgcn ++ (arxiv'2022) | ctrgcn (cvpr'2021) |
| msg3d (cvpr'2020) | ||||
| การดึงวิดีโอ | ||||
| Clip4Clip (Arxiv'2022) | ||||
| การจดจำการกระทำ | |||
| HMDB51 (หน้าแรก) (ICCV'2011) | UCF101 (หน้าแรก) (CRCV-IR-12-01) | ActivityNet (โฮมเพจ) (cvpr'2015) | จลนศาสตร์-[400/600/700] (หน้าแรก) (CVPR'2017) |
| STHV1 (ICCV'2017) | STHV2 (หน้าแรก) (ICCV'2017) | Diving48 (หน้าแรก) (ECCV'2018) | Jester (หน้าแรก) (ICCV'2019) |
| ช่วงเวลาในเวลา (หน้าแรก) (tpami'2019) | หลายช่วงเวลา (หน้าแรก) (Arxiv'2019) | HVU (หน้าแรก) (ECCV'2020) | Omnisource (หน้าแรก) (ECCV'2020) |
| Finegym (โฮมเพจ) (CVPR'2020) | Kinetics-710 (หน้าแรก) (Arxiv'2022) | ||
| การแปลการกระทำ | |||
| Thumos14 (หน้าแรก) (Thumos Challenge 2014) | ActivityNet (โฮมเพจ) (cvpr'2015) | HACS (หน้าแรก) (ICCV'2019) | |
| การตรวจจับการกระทำแบบ Spatio-Temporal | |||
| UCF101-24* (หน้าแรก) (CRCV-IR-12-01) | JHMDB* (หน้าแรก) (ICCV'2015) | AVA (หน้าแรก) (CVPR'2018) | Ava-kinetics (หน้าแรก) (Arxiv'2020) |
| MultiSports (หน้าแรก) (ICCV'2021) | |||
| การจดจำการกระทำตามโครงกระดูก | |||
| Posec3D-Finegym (หน้าแรก) (Arxiv'2021) | posec3d-nturgb+d (หน้าแรก) (Arxiv'2021) | POSEC3D-UCF101 (หน้าแรก) (Arxiv'2021) | POSEC3D-HMDB51 (หน้าแรก) (Arxiv'2021) |
| การดึงวิดีโอ | |||
| MSRVTT (หน้าแรก) (CVPR'2016) | |||
สำหรับบทช่วยสอนเราให้คำแนะนำผู้ใช้ต่อไปนี้สำหรับการใช้งานขั้นพื้นฐาน:
โครงการนี้เปิดตัวภายใต้ใบอนุญาต Apache 2.0
หากคุณพบว่าโครงการนี้มีประโยชน์ในการวิจัยของคุณโปรดพิจารณาอ้างอิง:
@misc { 2020mmaction2 ,
title = { OpenMMLab's Next Generation Video Understanding Toolbox and Benchmark } ,
author = { MMAction2 Contributors } ,
howpublished = { url{https://github.com/open-mmlab/mmaction2} } ,
year = { 2020 }
}เราขอขอบคุณการมีส่วนร่วมทั้งหมดเพื่อปรับปรุง MMAction2 โปรดดูที่การสนับสนุน. MD ใน MMCV สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับแนวทางที่มีส่วนร่วม
MMACTION2 เป็นโครงการโอเพ่นซอร์สที่ได้รับการสนับสนุนจากนักวิจัยและวิศวกรจากวิทยาลัยและ บริษัท ต่างๆ เราขอขอบคุณผู้สนับสนุนทุกคนที่ใช้วิธีการของพวกเขาหรือเพิ่มคุณสมบัติใหม่และผู้ใช้ที่ให้ข้อเสนอแนะที่มีค่า เราหวังว่ากล่องเครื่องมือและเกณฑ์มาตรฐานสามารถให้บริการชุมชนการวิจัยที่กำลังเติบโตโดยการจัดหาชุดเครื่องมือที่ยืดหยุ่นเพื่อนำวิธีการที่มีอยู่ใหม่มาใช้ใหม่และพัฒนาโมเดลใหม่ของพวกเขา