video classification 3d cnn pytorch تنزيل - video classification 3d cnn pytorch SOUST CODE

video classification 3d cnn pytorch

بايثون

1.0.0

تنزيل

تصنيف الفيديو باستخدام 3D Resnet

هذا هو رمز Pytorch لتصنيف الفيديو (الإجراء) باستخدام 3D Resnet المدربة بواسطة هذا الرمز.
يتم تدريب Resnet ثلاثي الأبعاد على مجموعة بيانات الحركية ، والتي تتضمن 400 فئة من الإجراءات.
يستخدم هذا الرمز مقاطع الفيديو كمدخلات ومخرجات أسماء الفصول ودرجات فئة متوقعة لكل 16 إطارًا في وضع النتيجة.
في وضع الميزة ، يقوم هذا الكود بإخراج ميزات 512 DIMS (بعد متوسط التجميع العالمي) لكل 16 إطارًا.

إصدار Torch (LUA) من هذا الرمز متاح هنا.

متطلبات

Pytorch

 conda install pytorch torchvision cuda80 -c soumith

FFMPEG ، FFProbe

 wget http://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar xvf ffmpeg-release-64bit-static.tar.xz
cd ./ffmpeg-3.3.3-64bit-static/; sudo cp ffmpeg ffprobe /usr/local/bin;

بيثون 3

تحضير

قم بتنزيل هذا الرمز.
قم بتنزيل النموذج المسبق.
- حقق Resnext-101 أفضل أداء في تجاربنا. (انظر الورق بالتفاصيل.)

الاستخدام

افترض أن ملفات الفيديو الإدخال موجودة في ./videos .

لحساب درجات الفئة لكل 16 إطارًا ، استخدم --mode score .

 python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode score

لتصور نتائج التصنيف ، استخدم generate_result_video/generate_result_video.py .

لحساب ميزات الفيديو لكل 16 إطارًا ، استخدم --mode feature .

 python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode feature

اقتباس

إذا كنت تستخدم هذا الرمز ، يرجى الاستشهاد بما يلي:

 @article{hara3dcnns,
  author={Kensho Hara and Hirokatsu Kataoka and Yutaka Satoh},
  title={Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?},
  journal={arXiv preprint},
  volume={arXiv:1711.09577},
  year={2017},
}

يوسع

معلومات إضافية