
視頻:蒙面自動編碼器是自我監視視頻預訓練的數據效率學習者
Zhan Tong,Yibing Song,Jue Wang,Limin Wang
南京大學,騰訊AI實驗室
[2023.4.18] ?每個人都可以從此鏈接中下載視頻中使用的Kinetics-400 。
[2023.4.18]已發布了視頻V2的代碼和預訓練的模型!檢查並享受此倉庫!
[2023.4.17]我們提出了Evad ,這是一個端到端的視頻操作檢測框架。
[2023.2.28]我們的視頻V2被CVPR 2023接受! ?
[2023.1.16]可以在視頻中使用代碼和預訓練的動作檢測模型!
[2022.12.27] ?每個人都可以從Internvideo下載thumos , ActivityNet , HACS和Fineaction的提取的視頻功能。
[2022.11.20] ? Videomae已融入並在@Sayak Paul的支持下。
[2022.10.25] ?視頻已整合到MMATCTIO2中,可以成功地再現動力學400的結果。
[2022.10.20]可以提供Vit-S和Vit-H的預訓練模型和腳本!
[2022.10.19]可以使用UCF101上的預訓練模型和腳本!
[2022.9.15]視頻被神經2022接受為聚光燈! ?
[2022.8.8] ? Videomae現在已整合到官方? Huggingface Transformers中!
[2022.7.7]我們已經在下游AVA 2.2基准上更新了新結果。請參閱我們的論文以獲取詳細信息。
[2022.4.24]現在可以使用代碼和預訓練的模型!
[2022.3.24]代碼和預培訓模型將在此處發布。歡迎觀看此存儲庫以獲取最新更新。
Videomae執行用於視頻預訓練的掩蓋視頻建模的任務。我們提出了極高的掩蔽率(90%-95%)和管掩蔽策略,以為自我監督的視頻預訓練創造一個具有挑戰性的任務。
Videomae使用簡單的蒙版自動編碼器和普通VIT主鏈來執行視頻自我監督學習。由於掩蓋率極高,視頻的預訓練時間比對比度學習方法( 3.2倍加速)要短得多。視頻可以作為一個簡單但強大的基線,用於在自我監視的視頻預訓練中進行未來的研究。
視頻對不同尺度的視頻數據集效果很好,可以在Kinects-400上獲得87.4%的效果,在某種程度上,v2的v2,UCF101的91.3% , HMDB51的效果為75.4%,為91.3% 。據我們所知,Videomae是第一個使用香草VIT骨架在這四個受歡迎的基準測試上實現最先進的性能的視頻,而不需要任何額外的數據或預訓練的模型。
| 方法 | 額外的數據 | 骨幹 | 解決 | #Frames X剪輯X農作物 | top-1 | 前五名 |
|---|---|---|---|---|---|---|
| 影片 | 不 | vit-s | 224x224 | 16x2x3 | 66.8 | 90.3 |
| 影片 | 不 | vit-b | 224x224 | 16x2x3 | 70.8 | 92.4 |
| 影片 | 不 | vit-l | 224x224 | 16x2x3 | 74.3 | 94.6 |
| 影片 | 不 | vit-l | 224x224 | 32x1x3 | 75.4 | 95.2 |
| 方法 | 額外的數據 | 骨幹 | 解決 | #Frames X剪輯X農作物 | top-1 | 前五名 |
|---|---|---|---|---|---|---|
| 影片 | 不 | vit-s | 224x224 | 16x5x3 | 79.0 | 93.8 |
| 影片 | 不 | vit-b | 224x224 | 16x5x3 | 81.5 | 95.1 |
| 影片 | 不 | vit-l | 224x224 | 16x5x3 | 85.2 | 96.8 |
| 影片 | 不 | VIT-H | 224x224 | 16x5x3 | 86.6 | 97.1 |
| 影片 | 不 | vit-l | 320x320 | 32x4x3 | 86.1 | 97.3 |
| 影片 | 不 | VIT-H | 320x320 | 32x4x3 | 87.4 | 97.6 |
請在視頻動作檢測中檢查代碼和檢查點。
| 方法 | 額外的數據 | 額外的標籤 | 骨幹 | #Frame X樣本率 | 地圖 |
|---|---|---|---|---|---|
| 影片 | 動力學400 | ✗ | vit-s | 16x4 | 22.5 |
| 影片 | 動力學400 | ✓ | vit-s | 16x4 | 28.4 |
| 影片 | 動力學400 | ✗ | vit-b | 16x4 | 26.7 |
| 影片 | 動力學400 | ✓ | vit-b | 16x4 | 31.8 |
| 影片 | 動力學400 | ✗ | vit-l | 16x4 | 34.3 |
| 影片 | 動力學400 | ✓ | vit-l | 16x4 | 37.0 |
| 影片 | 動力學400 | ✗ | VIT-H | 16x4 | 36.5 |
| 影片 | 動力學400 | ✓ | VIT-H | 16x4 | 39.5 |
| 影片 | 動力學700 | ✗ | vit-l | 16x4 | 36.1 |
| 影片 | 動力學700 | ✓ | vit-l | 16x4 | 39.3 |
| 方法 | 額外的數據 | 骨幹 | UCF101 | HMDB51 |
|---|---|---|---|---|
| 影片 | 不 | vit-b | 91.3 | 62.6 |
| 影片 | 動力學400 | vit-b | 96.1 | 73.3 |
請按照install.md中的說明進行操作。
請按照Dataset.md中的說明進行數據準備。
訓練前的指令在Prarin.md中。
微調指令在Finetune.md中。
我們在model_zoo.md中提供預訓練和微調的模型。
我們在vis.sh中提供可視化的腳本。 COLAB筆記本以進行更好的可視化,即將推出。
Zhan Tong:[email protected]
感謝Ziteng Gao,Lei Chen,Chongjian GE和Zhiyu Zhao的友好支持。
該項目建立在Mae-Pytorch和Beit上。感謝這些出色代碼庫的貢獻者。
該項目的大多數是根據許可證文件中發現的CC-BY-NC 4.0許可證發布的。該項目的部分可在單獨的許可條款下獲得:SlowFast和Pytorch-Image-Models由Apache 2.0許可證獲得許可。 Beit已獲得MIT許可證的許可。
如果您認為此項目很有幫助,請隨時留下星際並引用我們的論文:
@inproceedings{tong2022videomae,
title={Video{MAE}: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training},
author={Zhan Tong and Yibing Song and Jue Wang and Limin Wang},
booktitle={Advances in Neural Information Processing Systems},
year={2022}
}
@article{videomae,
title={VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training},
author={Tong, Zhan and Song, Yibing and Wang, Jue and Wang, Limin},
journal={arXiv preprint arXiv:2203.12602},
year={2022}
}