video classification 3d cnn pytorch
1.0.0
這是使用該代碼訓練的3D Resnet進行視頻(操作)分類的Pytorch代碼。
3D Resnet在動力學數據集上進行了培訓,其中包括400個動作類。
該代碼在分數模式下使用視頻作為輸入和輸出類名稱和每16幀的類別分數。
在功能模式下,此代碼為每16幀輸出512個DIM(全局平均池)的功能。
此代碼的火炬(LUA)版本可在此處找到。
conda install pytorch torchvision cuda80 -c soumith
wget http://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar xvf ffmpeg-release-64bit-static.tar.xz
cd ./ffmpeg-3.3.3-64bit-static/; sudo cp ffmpeg ffprobe /usr/local/bin;
假設輸入視頻文件位於./videos中。
要計算每個16幀的類別分數,請使用--mode score 。
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode score
要可視化分類結果,請使用generate_result_video/generate_result_video.py 。
要計算每個16幀的視頻功能,請使用--mode feature 。
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode feature
如果您使用此代碼,請引用以下內容:
@article{hara3dcnns,
author={Kensho Hara and Hirokatsu Kataoka and Yutaka Satoh},
title={Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?},
journal={arXiv preprint},
volume={arXiv:1711.09577},
year={2017},
}