为了不被Prisma和Artisto这样的应用程序超越,谷歌今天公布了一项新研究,使应用程序能够在视频上应用一种艺术风格,然后根据需要切换到不同的艺术风格。这项工作涉及到一种被称为深度学习的人工智能,它表明,谷歌希望在受到应用程序的启发后,提升这项技术的水平。这些应用程序超越了你在Instagram上看到的那些简单的照片过滤器。
该作品发布的前一天,Facebook演示了如何将样式应用到实时视频中。
和Facebook的情况一样,谷歌还没有发布应用程序,但这家搜索公司表示,它将很快开放代码的源代码,让人们可以在谷歌的TensorFlow深度学习框架中试用这项技术。
为了做到这一点,谷歌正在将人工神经网络——深度学习的关键元素,在谷歌和其他公司越来越多的产品中使用——应用到一种称为风格转移的方法中。
“与以前方法快风格转移,我们认为这种方法建模多个风格同时打开车门激动人心的新方法为用户与风格传输算法,不仅允许自由创造新的风格基于其他的混合物,但要做到实时,”谷歌高级研究科学家乔恩•Shlens谷歌软件工程师的希Kudlur,和前谷歌大脑实习生文森特Dumoulin在一篇博客文章中写道。
最初的实现非常缓慢。上传一张照片——甚至不是一段视频——你“仍然有足够的时间在结果出来之前去喝杯咖啡,”Shlens, Kudlur和Dumoulin写道。当然,他们改进了系统。
这项工作建立在去年走红的谷歌的DeepDream系统之上。Prisma在今年确实经历了一场流行浪潮,而谷歌的新技术也可能会出现类似的情况——只要它能在相对较短的时间内投入使用,同时Prisma的理念在人们的头脑中仍然是新鲜的。
这可能会给谷歌带来短期收益,但从长期来看,其影响可能更为显著。三人在一篇论文中解释道:
我们认为,这是一个重要的问题,如果得到解决,将具有科学和实践的重要性。首先,样式转移已经在移动应用程序中得到了应用,对于移动应用程序,设备上的处理取决于模型是否具有合理的内存占用。更广泛地说,为每一种风格建立一个单独的[网络]忽视了这样一个事实,即个别绘画共享许多共同的视觉元素,而一个真正捕捉艺术风格的模型将能够利用和学习这种规律。此外,一个艺术风格模型在绘画风格中推广的程度,将直接衡量我们建立系统的能力,这些系统可以节省地捕捉照片和图像的更高层次的特征和统计数据。Olshausen, 2001)。
请阅读全文。
11月1日更新:谷歌现在已经开源了为一个图像添加多个样式的代码。它可以在GitHub上找到。为视频添加多种样式的代码将在后面给出。