Esta es una clasificación de Código PyTorch para Video (Action) utilizando 3D Resnet capacitado por este código.
El 3D ResNet está capacitado en el conjunto de datos de cinética, que incluye 400 clases de acción.
Este código utiliza videos como insumos y emite nombres de clase y puntajes de clase predichos para cada 16 cuadros en el modo de puntuación.
En el modo de función, este código genera características de 512 DIMS (después de la agrupación promedio global) para cada 16 cuadros.
La versión de antorcha (LUA) de este código está disponible aquí.
conda install pytorch torchvision cuda80 -c soumith
wget http://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar xvf ffmpeg-release-64bit-static.tar.xz
cd ./ffmpeg-3.3.3-64bit-static/; sudo cp ffmpeg ffprobe /usr/local/bin;
Suponga que los archivos de video de entrada se encuentran en ./videos .
Para calcular las puntuaciones de clase para cada 16 cuadros, use --mode score .
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode score
Para visualizar los resultados de la clasificación, use generate_result_video/generate_result_video.py .
Para calcular las funciones de video para cada 16 cuadros, use --mode feature .
python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode feature
Si usa este código, cite lo siguiente:
@article{hara3dcnns,
author={Kensho Hara and Hirokatsu Kataoka and Yutaka Satoh},
title={Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?},
journal={arXiv preprint},
volume={arXiv:1711.09577},
year={2017},
}