英伟达的研究人员已经建立了一个生成模型,可以利用来自YouTube等网站的真实视频创建虚拟环境——这是一种生成图形的方式,可能会对游戏和人工智能的未来产生影响。
“这是一种新的渲染技术,输入基本上只是一个草图,一个对象的高级表示,以及它们在虚拟环境中是如何交互的。Nvidia应用深度学习的副总裁Bryan Catanzaro在接受VentureBeat的电话采访时表示:“这个模型实际上会处理细节,细化纹理和灯光等,以做出一个完全渲染的图像。”
该系统使用来自百度自动驾驶项目的阿波罗景观视频进行了培训。在哪里可以找到东西的草图——比如树、建筑物、汽车和行人——被输入到模型中。
卡坦扎罗、Nvidia的其他研究人员和麻省理工学院CSAIL的一名学生共同撰写了一篇题为《视频到视频合成》的论文,详细介绍了这种方法。
该模型可以使快速生成训练强化学习代理的合成环境成为可能,或帮助正在玩游戏的人感觉他们处于相同的位置。
“想象一下,如果你可以在电子游戏中扮演你自己。而仅仅从你拍的一段手机视频中,就有足够的信息添加你的角色作为你自己,作为一个穿着闪亮盔甲的骑士去做一些伟大的事情,”他说。“英伟达在图形领域已经有很长一段时间了,所以我们很高兴能将图形技术带入人工智能时代,并使用人工智能来生成图形,在那里我们可以从真实世界的视频中了解事物是如何工作的,然后根据这些知识来合成内容。”
系统能够考虑对象的位置、对象之间的关系和映射来定义对象的边缘。
Nvidia将在本周于蒙特利尔举行的神经信息处理系统会议(NeurIPS,前身为NIPS)上演示视频,并分享这项技术的更多细节。
Nvidia的团队最初是受Alexei Efros和加州大学伯克利分校的其他研究人员的工作以及他们创造的Pix2Pix系统的启发而采取这种方法的。Nvidia与加州大学伯克利分校的人工智能从业者合作,创造了Pix2PixHDin response。
今年早些时候,加州大学伯克利分校(UC Berkeley)的研究人员还制作了能够跳舞、翻筋斗和其他20种杂技动作的模型。
“我认为这是第一次交互式人工智能渲染,我们真的为我们取得的进展感到自豪。但它还处于早期阶段,我认为会有很多进展,使输出质量更高,更普遍,这样我们就可以处理更多的场景。所以我对未来的发展方向感到非常兴奋。”