video classification 3d cnn pytorch
1.0.0
นี่คือรหัส pytorch สำหรับการจำแนกวิดีโอ (การกระทำ) โดยใช้ 3D resnet ที่ผ่านการฝึกอบรมด้วยรหัสนี้
3D resnet ได้รับการฝึกฝนในชุดข้อมูลจลนพลศาสตร์ซึ่งรวมถึง 400 คลาสแอ็คชั่น
รหัสนี้ใช้วิดีโอเป็นอินพุตและชื่อคลาสของคลาสและคะแนนคลาสที่คาดการณ์ไว้สำหรับแต่ละเฟรม 16 เฟรมในโหมดคะแนน
ในโหมดฟีเจอร์รหัสนี้เอาต์พุตของ 512 DIMS (หลังจากการรวมค่าเฉลี่ยทั่วโลก) สำหรับแต่ละเฟรมแต่ละเฟรม
CORCH (LUA) ของรหัสนี้มีอยู่ที่นี่
conda install pytorch torchvision cuda80 -c soumith
wget http://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar xvf ffmpeg-release-64bit-static.tar.xz
cd ./ffmpeg-3.3.3-64bit-static/; sudo cp ffmpeg ffprobe /usr/local/bin;
สมมติว่าไฟล์วิดีโออินพุตอยู่ใน ./videos videos
ในการคำนวณคะแนนคลาสสำหรับแต่ละเฟรมแต่ละเฟรมให้ใช้ --mode score
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode score
ในการแสดงภาพผลลัพธ์การจำแนกประเภทให้ใช้ generate_result_video/generate_result_video.py
ในการคำนวณคุณสมบัติวิดีโอสำหรับแต่ละเฟรมแต่ละเฟรมให้ใช้ --mode feature
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode feature
หากคุณใช้รหัสนี้โปรดอ้างอิงสิ่งต่อไปนี้:
@article{hara3dcnns,
author={Kensho Hara and Hirokatsu Kataoka and Yutaka Satoh},
title={Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?},
journal={arXiv preprint},
volume={arXiv:1711.09577},
year={2017},
}