Ini adalah kode Pytorch untuk klasifikasi video (ACTION) menggunakan 3D ResNet yang dilatih oleh kode ini.
3D ResNet dilatih pada dataset kinetika, yang mencakup 400 kelas aksi.
Kode ini menggunakan video sebagai input dan output nama kelas dan prediksi skor kelas untuk setiap 16 frame dalam mode skor.
Dalam mode fitur, kode ini menghasilkan fitur 512 DIMS (setelah pengumpulan rata -rata global) untuk setiap 16 frame.
Versi Torch (LUA) dari kode ini tersedia di sini.
conda install pytorch torchvision cuda80 -c soumith
wget http://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar xvf ffmpeg-release-64bit-static.tar.xz
cd ./ffmpeg-3.3.3-64bit-static/; sudo cp ffmpeg ffprobe /usr/local/bin;
Asumsikan file video input berada di ./videos .
Untuk menghitung skor kelas untuk setiap 16 frame, gunakan --mode score .
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode score
Untuk memvisualisasikan hasil klasifikasi, gunakan generate_result_video/generate_result_video.py .
Untuk menghitung fitur video untuk setiap 16 frame, gunakan --mode feature .
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode feature
Jika Anda menggunakan kode ini, silakan kutip yang berikut:
@article{hara3dcnns,
author={Kensho Hara and Hirokatsu Kataoka and Yutaka Satoh},
title={Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?},
journal={arXiv preprint},
volume={arXiv:1711.09577},
year={2017},
}