去年产生了一系列黑镜式的时刻,但最令人难忘的是人工智能工具的到来,它可以以令人不安的现实主义为我们的旧家庭照片制作动画。 这款名为“Deep Nostalgia”的游戏于 2 月下旬登陆,并以其快速、令人信服地为各种面孔制作动画的能力吸引了社交媒体:远亲、雕像、纹身,当然还有榆树街上的噩梦海报。
就像几乎所有事情一样,技术分裂了互联网意见。有些人发现这是一个温馨的作弊代码,用于“会见”他们从未见过的旧关系。其他人认为它接近死灵法术。我们大多数人可能处于介于两者之间的冲突空间。但摄影的重大新闻是它现在存在——并且以具有巨大主流潜力的形式存在。
但是,人工智能和机器学习究竟如何让您的旧家庭照片焕发活力呢?这一切将走向何方?“Deep Nostalgia”来自家谱公司 MyHeritage,但它实际上从以色列公司 D-ID(“De-Identification”的缩写)获得了该技术的许可。
D-ID 的“Live Portrait”技术可能是新的,但它的基本原理不是。早在 1997 年就演示了基于机器学习的面部重新动画,而在 2016 年,Face2Face 程序通过将乔治·布什和弗拉基米尔·普京变成实时数字木偶,给我们带来了“深深的怀旧”寒意。
但在过去几年里,这项技术取得了重大飞跃——从温和的大学研究论文到我们的智能手机。随着 Deep Nostalgia 和 Avatarify 等免费服务能够从一张静态照片中制作出令人信服的视频,Pandora 重新制作动画的盒子已经打开。
一段时间以来,计算机以照片形式创造一个新人相对容易 – 如果您以前没有见过它,我们很抱歉让您进入这个人不存在的兔子洞,它本身就病毒式传播在 2019 年。
生成对抗网络生成的两张人脸
这些人都不存在。它们是由针对此人不存在的 GAN(生成对抗网络)创建的。使用右下角的按钮创建一个新人并观看小时数。(图片来源:此人不存在)
更难的是从单个静止图像中令人信服地生成一个移动的人,包括根本不存在的信息。这就是 D-ID 似乎设法破解的。正如 Gil Perry 告诉我们的那样:“困难的部分不仅仅是改变面部并为其设置动画。这里的火箭科学是如何让它看起来 100% 真实。”
根据 Perry 的说法,D-ID 必须通过其“实时肖像”克服的最大挑战是缺乏从单张照片中获取的信息。面部重新动画的早期尝试需要大量训练数据,并且还遇到了“遮挡”(面部被手或其他物体遮挡)的问题。但这是 D-ID 在这方面取得的重大进展。
“困难的部分是当你没有不同的角度时——例如,你可以上传一张非常正面且没有牙齿的照片,”他说。“我们的算法知道如何预测和创建照片中没有的缺失部分——例如耳朵、牙齿、背景。基本上,我们跨越了人们所说的恐怖谷。”
互联网对“Deep Nostalgia”(基于 D-ID 的技术)的反应不一,或许表明它还没有完全跨越这个门槛,但它肯定取得了良好的进展。它最近添加了新的“驱动程序”或动画,包括让您的对象亲吻或点头表示赞同的能力。而这只是 D-ID 重振雄心的开始。
你做了什么?
D-ID 的“Live Portrait”技术具有如此适应性(它被用于从博物馆应用程序到社交网络的所有领域)的原因是因为其过程具有灵活性。那么它究竟是如何工作的呢?
“实时肖像的工作方式是我们有一组司机视频,”佩里说。“我们有大约 100 个这样的动作。当用户上传照片时,公司使用我们的 API。然后我们的算法知道如何转换地标,即静止图像脸上的一组点,以类似的方式进行动作和移动到司机视频脸上的地标或点的方式。”
至关重要的是,获得 D-ID 技术许可的人和公司不仅限于其自己的动作库——他们也可以创建自己的动作库。“目前,我们有足够的驱动程序,但我们的一些客户致力于自己创建驱动程序,”佩里解释说。这也为另一个名为“Talking Heads”的 D-ID 产品提供了动力,该产品将文本或音频转换为人们谈话的逼真视频。
D-ID 的“Talking Heads”功能对电影和 YouTube 有着巨大的影响。理论上,YouTubers 可以简单地在他们的 PJ 中编写视频脚本,并将演示留给他们的虚拟化身。但对于摄影来说,“Live Portraits”是重磅炸弹——尤其是对于库存照片公司。
我们基本上把世界上所有的照片都变成了视频——我们喜欢说我们哈利波特化了世界
吉尔佩里,D-ID
“对他们来说,这真的可以改变游戏规则,原因有两个,”佩里说。“一,我们可以将他们所有的照片转换成视频。二,在寻找照片时,大多数时候用户找不到他们需要的东西。我们可以改变表达方式——如果你想让这个人成为一个稍微开心一点或者换个方向看,我们可以通过点击一个按钮来改变这一切。”
用动画照片给 Twitter 或 TikTok 留下深刻印象是一回事,但另一个令人信服的照片老手,数字改变的面部表情可以满足他们的严格标准。对于这样的专业人士来说,这项技术真的足够成熟吗?“是的,我们已经在这样做了,”佩里说。“我们向摄影师出售产品,并与最大的影视素材公司取得了快速进展。本月我们还有另一家以相册和照片扫描而闻名的上市公司。”
从这个意义上说,来自 D-ID 之类的重新动画技术正在挑战照片的实际定义。现在,照片不再是凝固的时刻,而是 AI 和机器学习创造无限可调整的替代现实的起点。摄影自诞生以来就很容易受到操纵,尤其是在后 Photoshop 时代。但是,由于从单个静止图像创建逼真的视频是一种全新的球类游戏,是否存在严重的误用可能性?
巡航控制
大多数大型社交网络,包括 Facebook 和 TikTok,都禁止了 Deepfakes,这与“Deep Nostalgia”之类的不同,其目的是欺骗或传播虚假信息。但即使是该技术的无害实现,如 D-ID 的“实时肖像”,理论上也可能在坏人手中变成恶意的。
幸运的是,这是 D-ID 考虑过的事情。事实上,该公司实际上是在 2017 年作为隐私技术的创新者开始生活的,该技术防范人脸识别的兴起。当 Perry 与他的联合创始人 Sella Blondheim 和 Eliran Kuta 一起创建 D-ID 时,他们制作了一个面部去识别系统(因此公司名称),其目的是成为照片和视频的隐私增强防火墙。
根据 Perry 的说法,这是构建安全 AI 面部技术的一个相当可靠的构建块。“当我们决定进入这个市场时,我们明白使用这种技术可能会做坏事,”他说。“无论我们是否进入都会发生这种情况。我们决定要进入并确保我们将市场推向正确的方向。我们的使命是保护隐私不受人脸识别的影响。我们拥有正确的背景和知识。”
但这也是关于设置实际缓冲区,以确保社交媒体不会充斥着恶意的汤姆克鲁斯(或更糟)。没有人可以直接利用 D-ID 的现成技术来制作上述视频,这些视频仍然需要高级 VFX 技能,即使该视频是使用开源算法 DeepFaceLab 制作的。
“我们正在为这项技术设置防护栏,所以你不会真的对它造成太大伤害,”佩里说。“例如,你可以在‘Deep Nostalgia’中看到,它只是怀旧和有趣的动作。我们做了很多测试,以确保它只是带来好的情绪。我们写了一个算法,我们在推特上运行并检查了所有的反应看看它们是正面的还是负面的。我们看到其中 95% 是正面的。”
最重要的是,D-ID 表示正在制定一份即将发布的宣言,并正在努力帮助组织检测照片是否被篡改。“我们还坚持,在可能的情况下,我们的客户会添加一个标记,让观看者清楚这不是真实的照片或视频,”佩里补充道。
这让那些在这一点上可能对现实即将消亡感到过度呼吸的人感到欣慰,或者至少我们有能力相信我们在网上看到的东西。D-ID 肯定认为其技术非常无辜。“我们基本上是将世界上所有的照片转换成视频——我们喜欢说我们哈利波特化了世界”佩里说。
但毫无疑问,像 D-ID 这样的技术对我们的在线媒体消费产生了严重的影响。Photoshop 可能在 1987 年实现了图像处理的大众化,但网络世界早已转向视频——毕竟,这就是“深度怀旧”在社交媒体上如此受欢迎的一个重要原因。
那么,我们在互联网上看到的大多数媒体成为所谓的“合成媒体”还要多久?“我相信在 5 到 10 年内,大多数媒体都将是合成的,”佩里说。“我相信我们将帮助在五年内实现这一目标,并确保它正确发生。”
在此期间还有很多事情需要解决,但在短期内希望看到那些“Deep Nostalgia”视频变得更加生动。D-ID 已经可以为多张脸的家庭照片制作动画,并表示为人们的身体制作动画“在路线图中”。随着 Photoshop 最近的“神经过滤器”也加入进来,我们的照片和视频的生活即将变得非常有趣——让我们只希望它比 AI 街上的噩梦更像哈利波特。