video classification 3d cnn pytorch 다운로드 - video classification 3d cnn pytorch 소스 코드 다운로드

video classification 3d cnn pytorch

파이썬

1.0.0

다운로드

3D RESNET을 사용한 비디오 분류

이 코드에서 교육을받은 3D RESNET을 사용한 비디오 (ACTIC) 분류 용 PYTORCH 코드입니다.
3D RESNET은 400 개의 액션 클래스가 포함 된 동역학 데이터 세트에서 교육을받습니다.
이 코드는 비디오를 입력 및 출력 클래스 이름 및 점수 모드의 각 16 프레임에 대해 예측 된 클래스 점수로 사용합니다.
기능 모드 에서이 코드는 각 16 프레임마다 512 개의 딤 (글로벌 평균 풀링 후)의 기능을 출력합니다.

이 코드의 Torch (LUA) 버전은 여기에서 사용할 수 있습니다.

요구 사항

Pytorch

 conda install pytorch torchvision cuda80 -c soumith

ffmpeg, ffprobe

 wget http://johnvansickle.com/ffmpeg/releases/ffmpeg-release-64bit-static.tar.xz
tar xvf ffmpeg-release-64bit-static.tar.xz
cd ./ffmpeg-3.3.3-64bit-static/; sudo cp ffmpeg ffprobe /usr/local/bin;

파이썬 3

준비

이 코드를 다운로드하십시오.
사전에 사전 모델을 다운로드하십시오.
- Resnext-101은 실험에서 최고의 성능을 달성했습니다. (자세한 내용은 종이를 참조하십시오.)

용법

입력 비디오 파일이 ./videos 에 있다고 가정합니다.

각 16 프레임마다 클래스 점수를 계산하려면 --mode score 사용하십시오.

 python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode score

분류 결과를 시각화하려면 generate_result_video/generate_result_video.py 사용하십시오.

각 16 프레임에 대한 비디오 기능을 계산하려면 --mode feature 사용하십시오.

 python main.py --input ./input --video_root ./videos --output ./output.json --model ./resnet-34-kinetics.pth --mode feature

소환

이 코드를 사용하는 경우 다음을 인용하십시오.

 @article{hara3dcnns,
  author={Kensho Hara and Hirokatsu Kataoka and Yutaka Satoh},
  title={Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?},
  journal={arXiv preprint},
  volume={arXiv:1711.09577},
  year={2017},
}

확장하다

추가 정보