对抗性攻击如何揭示机器学习的弱点

计算机视觉技术在促进机器学习方面的应用仍在加速,人们乐观地认为,对大量图像进行分类将带来各种新的应用和自主形式。

但这种转变也有其黑暗的一面:这些学习系统仍然非常容易被所谓的“对抗性攻击”所欺骗。更糟糕的是,领先的研究人员承认,他们并没有真正的解决方案来阻止恶作剧者对这些系统造成破坏。

“我们能抵御这些攻击吗?”该公司深度学习人工智能研究团队谷歌Brain的研究科学家尼古拉斯·佩珀诺特(Nicolas Papernot)说。“不幸的是,答案是否定的。”

Papernot也是多伦多大学的助理教授,最近在巴黎由France Digitale主办的年度法国is AI大会上发表了讲话。上午晚些时候,巴黎多芬大学(university of Paris-Dauphine)教授贾马尔?

从最基本的意义上讲,对抗性攻击指的是在机器学习模型中引入某种元素,这种模型是专门用来错误地识别某些东西的。

在Papernot的演讲中,他引用了最近一篇研究论文中的一个例子:

在左边,机器学习模型看到了熊猫的图片,并以相当高的信心正确地识别了它。在中间,有人将这张肉眼不可见的像素图像叠加到熊猫图像上。结果是,电脑现在几乎可以确定这是一只长臂猿。

这种欺骗的简单性突出了一对夫妇的弱点。首先,机器学习的图像识别虽然可能已经有了很大的进步,但仍处于初级阶段。Papernot指出,要“教”机器识别各种猫和狗的图像,需要保持参数和图像相当基本,在样本集中引入相当大的偏差。

不幸的是,这使得黑客的工作更容易。Papernot指出,要破坏这些经常使用公开图片进行学习的系统,并不需要侵入实际的机器学习系统。外部方可以在搜索要学习的图像时检测到这样的系统,然后很容易对它提出的问题和设置的参数进行反向工程。

“你可以选择模型提出的问题,然后找到一种方法让模型做出错误的预测,”他说。“你甚至不需要内部访问。您可以发送输入,并查看它做出的预测,然后提取模型。你可以用这个过程在本地复制这个过程。”

从这里开始,引入一些欺骗就相对简单了,这些欺骗欺骗了机器学习,让它学习所有错误的东西。

“这意味着,对手真的不需要了解你的模型就可以攻击,”他说。“他们只需要知道它试图解决什么问题。他们不需要很多资源就能窃取并攻击你的模型。”

事实上,他说,他自己对这种提取攻击的实验发现,成功率高达96%。当然,如果自动化系统将猫误认为狗是一回事。这是另一个如果它是自动驾驶汽车算法的基础,认为停车标志是一个屈服标志。

当然,这类攻击是在现实世界中进行的,人们会在标志上做标记来欺骗自动驾驶汽车。最近,东北大学(Northeastern University)和麻省理工学院- ibm沃森人工智能实验室(MIT-IBM Watson AI Lab)的科学家们设计了一件“对抗式t恤”,上面印着图案,目的是让某些人能够愚弄人类的检测系统。

虽然人工智能和伦理往往最受公众关注,但研究人员越来越关注对抗性攻击的问题。Atif在他的演讲中说,虽然这个问题早在十多年前就被发现了,但自2014年以来,致力于这个主题的研究论文数量“激增”。在即将召开的学习表现国际会议上,已经有超过120篇关于这个主题的论文提交。

Atif说,这种不断增长的兴趣是由寻找某种解决方案的愿望所驱动的,而到目前为止,这种愿望仍然难以实现。问题的部分原因在于,尽管机器学习系统必须维护一组定义好的参数,但对抗性攻击的种类是如此之多,以至于无法猜测所有可能的组合,也无法教会系统如何保护自己。

研究人员尝试了一些实验,比如将一个机器学习系统分成几个部分来执行相同的任务,然后比较结果。或者解释其他用户行为,比如点击哪些图片,以确定图片是否被正确读取。Atif说,研究人员还在探索更多地使用随机化和博弈论,希望找到更有力的方法来捍卫这些系统的完整性。

到目前为止,最有效的策略是增加一组带有对抗性图片的图片,至少给机器学习系统一些基本的防御。在最好的情况下,这种策略的准确率只有45%。

“这是最先进的,”他说。“我们只是没有一个强大的防御战略。”

(0)
上一篇 2022年4月7日
下一篇 2022年4月7日

相关推荐