华盛顿大学的研究人员开发了一种深度学习方法

有时照片无法真正捕捉场景。如果水在移动，那张尼亚加拉大瀑布的度假照片会更史诗吗?华盛顿大学的研究人员开发了一种深度学习方法，可以做到这一点：如果给定一张瀑布的照片，系统会创建一个视频，显示水流下来。唯一缺少的是水的轰鸣声和喷洒在脸上的感觉。

该团队的方法可以为任何流动的材料制作动画，包括烟和云。这种技术产生了一个无缝循环的短视频，给人一种无尽运动的印象。研究人员将于 6 月 22 日在计算机视觉和模式识别会议上介绍这种方法。

“一张照片捕捉到了一个瞬间凝固的瞬间。但很多信息都在一张静态图像中丢失了。是什么导致了这一刻，事情又是如何变化的?想想你上一次发现自己专注于真正有趣的事情是什么时候——机会是，它不是完全静态的，”主要作者、保罗 G. 艾伦计算机科学与工程学院的博士生亚历山大霍林斯基说。

“我们方法的特别之处在于它不需要任何用户输入或额外信息，”霍林斯基说。“您只需要一张图片。它会输出高分辨率、无缝循环的视频，通常看起来像真实的视频。”

开发一种将单张照片变成可信视频的方法一直是该领域的一个挑战。

“它实际上需要你预测未来，”霍林斯基说。“而在现实世界中，接下来可能发生的事情几乎有无限可能。”

该团队的系统由两部分组成：首先，它预测拍摄照片时物体的移动方式，然后使用该信息创建动画。

为了估计运动，该团队用数千个关于瀑布、河流、海洋和其他流体运动的材料的视频训练了一个神经网络。训练过程包括要求网络在仅给定第一帧时猜测视频的运动。在将其预测与实际视频进行比较后，网络学会了识别线索——例如流中的涟漪——以帮助它预测接下来会发生什么。然后团队的系统使用该信息来确定每个像素是否以及如何移动。

研究人员试图使用一种称为“泼溅”的技术来为照片制作动画。该方法根据其预测的运动移动每个像素。但这产生了一个问题。

“想想一个流动的瀑布，”霍林斯基说。“如果你只是将像素沿着瀑布向下移动，那么在视频的几帧之后，顶部将没有像素!”

因此，该团队创造了“对称泼溅”。本质上，该方法预测图像的未来和过去，然后将它们组合成一个动画。

“回顾瀑布的例子，如果我们回到过去，像素会沿着瀑布向上移动。所以我们会开始看到底部附近的一个洞，”霍林斯基说。“我们整合了来自这两个动画的信息，因此我们扭曲的图像中永远不会有任何明显的大洞。”

最后，研究人员希望他们的动画无缝循环以创建连续运动的外观。动画网络遵循一些技巧来保持干净，包括在不同时间转换帧的不同部分，以及根据周围环境决定混合每个像素的速度。

该团队的方法最适用于具有可预测流体运动的物体。目前，该技术难以预测反射应该如何移动或水如何扭曲其下方物体的外观。

“当我们看到瀑布时，我们知道水应该如何表现。火或烟也是如此。这些类型的运动遵循相同的一组物理定律，图像中通常有线索告诉我们事情应该如何表现动起来，”霍林斯基说。“我们很想扩展我们的工作以对更广泛的对象进行操作，例如动画一个人的头发在风中飘扬。我希望最终我们与朋友和家人分享的照片不会是静态图像. 相反，它们都将是动态动画，就像我们的方法生成的动画一样。”

华盛顿大学的研究人员开发了一种深度学习方法

相关推荐