video classification 3d cnn pytorch
1.0.0
هذا هو رمز Pytorch لتصنيف الفيديو (الإجراء) باستخدام 3D Resnet المدربة بواسطة هذا الرمز.
يتم تدريب Resnet ثلاثي الأبعاد على مجموعة بيانات الحركية ، والتي تتضمن 400 فئة من الإجراءات.
يستخدم هذا الرمز مقاطع الفيديو كمدخلات ومخرجات أسماء الفصول ودرجات فئة متوقعة لكل 16 إطارًا في وضع النتيجة.
في وضع الميزة ، يقوم هذا الكود بإخراج ميزات 512 DIMS (بعد متوسط التجميع العالمي) لكل 16 إطارًا.
إصدار Torch (LUA) من هذا الرمز متاح هنا.
conda install pytorch torchvision cuda80 -c soumith
wget http://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar xvf ffmpeg-release-64bit-static.tar.xz
cd ./ffmpeg-3.3.3-64bit-static/; sudo cp ffmpeg ffprobe /usr/local/bin;
افترض أن ملفات الفيديو الإدخال موجودة في ./videos .
لحساب درجات الفئة لكل 16 إطارًا ، استخدم --mode score .
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode score
لتصور نتائج التصنيف ، استخدم generate_result_video/generate_result_video.py .
لحساب ميزات الفيديو لكل 16 إطارًا ، استخدم --mode feature .
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode feature
إذا كنت تستخدم هذا الرمز ، يرجى الاستشهاد بما يلي:
@article{hara3dcnns,
author={Kensho Hara and Hirokatsu Kataoka and Yutaka Satoh},
title={Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?},
journal={arXiv preprint},
volume={arXiv:1711.09577},
year={2017},
}