有时照片无法真正捕捉场景。如果水在移动,那张尼亚加拉大瀑布的度假照片会更史诗吗?华盛顿大学的研究人员开发了一种深度学习方法,可以做到这一点:如果给定一张瀑布的照片,系统会创建一个视频,显示水流下来。唯一缺少的是水的轰鸣声和喷洒在脸上的感觉。
该团队的方法可以为任何流动的材料制作动画,包括烟和云。这种技术产生了一个无缝循环的短视频,给人一种无尽运动的印象。研究人员将于 6 月 22 日在计算机视觉和模式识别会议上介绍这种方法。
“一张照片捕捉到了一个瞬间凝固的瞬间。但很多信息都在一张静态图像中丢失了。是什么导致了这一刻,事情又是如何变化的?想想你上一次发现自己专注于真正有趣的事情是什么时候——机会是,它不是完全静态的,”主要作者、保罗 G. 艾伦计算机科学与工程学院的博士生亚历山大霍林斯基说。
“我们方法的特别之处在于它不需要任何用户输入或额外信息,”霍林斯基说。“您只需要一张图片。它会输出高分辨率、无缝循环的视频,通常看起来像真实的视频。”
开发一种将单张照片变成可信视频的方法一直是该领域的一个挑战。
“它实际上需要你预测未来,”霍林斯基说。“而在现实世界中,接下来可能发生的事情几乎有无限可能。”
该团队的系统由两部分组成:首先,它预测拍摄照片时物体的移动方式,然后使用该信息创建动画。
为了估计运动,该团队用数千个关于瀑布、河流、海洋和其他流体运动的材料的视频训练了一个神经网络。训练过程包括要求网络在仅给定第一帧时猜测视频的运动。在将其预测与实际视频进行比较后,网络学会了识别线索——例如流中的涟漪——以帮助它预测接下来会发生什么。然后团队的系统使用该信息来确定每个像素是否以及如何移动。
研究人员试图使用一种称为“泼溅”的技术来为照片制作动画。该方法根据其预测的运动移动每个像素。但这产生了一个问题。
“想想一个流动的瀑布,”霍林斯基说。“如果你只是将像素沿着瀑布向下移动,那么在视频的几帧之后,顶部将没有像素!”
因此,该团队创造了“对称泼溅”。本质上,该方法预测图像的未来和过去,然后将它们组合成一个动画。
“回顾瀑布的例子,如果我们回到过去,像素会沿着瀑布向上移动。所以我们会开始看到底部附近的一个洞,”霍林斯基说。“我们整合了来自这两个动画的信息,因此我们扭曲的图像中永远不会有任何明显的大洞。”
最后,研究人员希望他们的动画无缝循环以创建连续运动的外观。动画网络遵循一些技巧来保持干净,包括在不同时间转换帧的不同部分,以及根据周围环境决定混合每个像素的速度。
该团队的方法最适用于具有可预测流体运动的物体。目前,该技术难以预测反射应该如何移动或水如何扭曲其下方物体的外观。
“当我们看到瀑布时,我们知道水应该如何表现。火或烟也是如此。这些类型的运动遵循相同的一组物理定律,图像中通常有线索告诉我们事情应该如何表现动起来,”霍林斯基说。“我们很想扩展我们的工作以对更广泛的对象进行操作,例如动画一个人的头发在风中飘扬。我希望最终我们与朋友和家人分享的照片不会是静态图像. 相反,它们都将是动态动画,就像我们的方法生成的动画一样。”