这是使用pytorch从单个图像[1]的3D ken burns效应的参考实现。给定单个输入映像,它通过虚拟摄像头扫描和缩放进行运动视差,可以使此静止图像动画。如果您使用我们的作品,请引用我们的论文[1]。
使用CUPY在CUDA中实现了几个功能,这就是为什么CUPY是必需的依赖性的原因。它可以使用pip install cupy或使用cupy存储库中概述的提供的二进制包装之一安装。还请确保配置了CUDA_HOME环境变量。
为了生成视频结果,还请确保安装了pip install moviepy 。
要在图像上运行它并生成3D KEN BURNS效应,请自动使用以下命令。
python autozoom.py --in ./images/doublestrike.jpg --out ./autozoom.mp4
要启动允许您手动调整相机路径的接口,请使用以下命令。然后,您可以导航到http://localhost:8080/并使用右下角的按钮加载图像。加载图像并保存结果时,请耐心等待,进行一些背景处理。
python interface.py
要运行深度估计以获得原始深度估计,请使用以下命令。请注意,此脚本不会执行深度调整,请参见#22,以获取有关如何添加它的信息。
python depthestim.py --in ./images/doublestrike.jpg --out ./depthestim.npy
为了测试深度估计,请运行python benchmark-ibims.py或python benchmark-nyu.py 。您可以使用它来轻松验证所提供的实现是否按预期运行。
如果您没有合适的环境来运行此项目,那么您可以尝试一下。它允许您免费在云中运行该项目。有几个人提供colab笔记本,应该让您入门。我知道的一些包括来自Arnaldo Gabriel的一个,一个来自弗拉德·亚历克斯(Vlad Alex)的人,还有一个来自艾哈迈德·哈默奇(Ahmed Harmouche)。
该数据集是在创意共享归因非商业期4.0国际公共许可证(CC BY-NC-SA 4.0)下获得许可的,并且只能用于非商业目的。请参阅许可证文件以获取更多信息。
| 场景 | 模式 | 颜色 | 深度 | 普通的 |
|---|---|---|---|---|
| ASDF | 飞行 | 3.7 GB | 1.0 GB | 2.9 GB |
| ASDF | 步行 | 3.6 GB | 0.9 GB | 2.7 GB |
| 空白的 | 飞行 | 3.2 GB | 1.0 GB | 2.8 GB |
| 空白的 | 步行 | 3.0 GB | 0.9 GB | 2.7 GB |
| 寒意 | 飞行 | 5.4 GB | 1.1 GB | 10.8 GB |
| 寒意 | 步行 | 5.2 GB | 1.0 GB | 10.5 GB |
| 城市 | 飞行 | 0.8 GB | 0.2 GB | 0.9 GB |
| 城市 | 步行 | 0.7 GB | 0.2 GB | 0.8 GB |
| 环境 | 飞行 | 1.9 GB | 0.5 GB | 3.5 GB |
| 环境 | 步行 | 1.8 GB | 0.5 GB | 3.3 GB |
| 堡 | 飞行 | 5.0 GB | 1.1 GB | 9.2 GB |
| 堡 | 步行 | 4.9 GB | 1.1 GB | 9.3 GB |
| 草 | 飞行 | 1.1 GB | 0.2 GB | 1.9 GB |
| 草 | 步行 | 1.1 GB | 0.2 GB | 1.6 GB |
| 冰 | 飞行 | 1.2 GB | 0.2 GB | 2.1 GB |
| 冰 | 步行 | 1.2 GB | 0.2 GB | 2.0 GB |
| 骑士 | 飞行 | 0.8 GB | 0.2 GB | 1.0 GB |
| 骑士 | 步行 | 0.8 GB | 0.2 GB | 0.9 GB |
| 前哨 | 飞行 | 4.8 GB | 1.1 GB | 7.9 GB |
| 前哨 | 步行 | 4.6 GB | 1.0 GB | 7.4 GB |
| 海盗 | 飞行 | 0.8 GB | 0.2 GB | 0.8 GB |
| 海盗 | 步行 | 0.7 GB | 0.2 GB | 0.8 GB |
| 射手 | 飞行 | 0.9 GB | 0.2 GB | 1.1 GB |
| 射手 | 步行 | 0.9 GB | 0.2 GB | 1.0 GB |
| 商店 | 飞行 | 0.2 GB | 0.1 GB | 0.2 GB |
| 商店 | 步行 | 0.2 GB | 0.1 GB | 0.2 GB |
| 贫民窟 | 飞行 | 0.5 GB | 0.1 GB | 0.8 GB |
| 贫民窟 | 步行 | 0.5 GB | 0.1 GB | 0.7 GB |
| 地铁 | 飞行 | 0.5 GB | 0.1 GB | 0.9 GB |
| 地铁 | 步行 | 0.5 GB | 0.1 GB | 0.9 GB |
| 寺庙 | 飞行 | 1.7 GB | 0.4 GB | 3.1 GB |
| 寺庙 | 步行 | 1.7 GB | 0.3 GB | 2.8 GB |
| 泰坦 | 飞行 | 6.2 GB | 1.1 GB | 11.5 GB |
| 泰坦 | 步行 | 6.0 GB | 1.1 GB | 11.3 GB |
| 镇 | 飞行 | 1.7 GB | 0.3 GB | 3.0 GB |
| 镇 | 步行 | 1.8 GB | 0.3 GB | 3.0 GB |
| 下兰 | 飞行 | 5.4 GB | 1.2 GB | 12.1 GB |
| 下兰 | 步行 | 5.1 GB | 1.2 GB | 11.4 GB |
| 维多利亚时代 | 飞行 | 0.5 GB | 0.1 GB | 0.8 GB |
| 维多利亚时代 | 步行 | 0.4 GB | 0.1 GB | 0.7 GB |
| 村庄 | 飞行 | 1.6 GB | 0.3 GB | 2.8 GB |
| 村庄 | 步行 | 1.6 GB | 0.3 GB | 2.7 GB |
| 仓库 | 飞行 | 0.9 GB | 0.2 GB | 1.5 GB |
| 仓库 | 步行 | 0.8 GB | 0.2 GB | 1.4 GB |
| 西 | 飞行 | 0.8 GB | 0.2 GB | 0.9 GB |
| 西 | 步行 | 0.7 GB | 0.2 GB | 0.8 GB |
请注意,这是我们在论文中使用的数据集的更新版本。因此,尽管总共场景较少,但现在每个样本捕获的焦距都不同,这应该有助于概括。此外,一些示例要么暴露过多或暴露不足,因此删除这些异常值是一个好主意。有关补充讨论,请参见#37,#39和#40。
这是Adobe Research的一个项目。它是根据创意共享归因非商业共享4.0国际公共许可证(CC BY-NC-SA 4.0)许可的,并且只能用于非商业目的。请参阅许可证文件以获取更多信息。
[1] @article{Niklaus_TOG_2019,
author = {Simon Niklaus and Long Mai and Jimei Yang and Feng Liu},
title = {3D Ken Burns Effect from a Single Image},
journal = {ACM Transactions on Graphics},
volume = {38},
number = {6},
pages = {184:1--184:15},
year = {2019}
}
上面的视频使用创意公共许可证或所有者许可下的材料,如最终所述。