对抗性攻击如何揭示机器学习的弱点

计算机视觉技术在促进机器学习方面的应用仍在加速，人们乐观地认为，对大量图像进行分类将带来各种新的应用和自主形式。

但这种转变也有其黑暗的一面:这些学习系统仍然非常容易被所谓的“对抗性攻击”所欺骗。更糟糕的是，领先的研究人员承认，他们并没有真正的解决方案来阻止恶作剧者对这些系统造成破坏。

“我们能抵御这些攻击吗?”该公司深度学习人工智能研究团队谷歌Brain的研究科学家尼古拉斯·佩珀诺特(Nicolas Papernot)说。“不幸的是，答案是否定的。”

Papernot也是多伦多大学的助理教授，最近在巴黎由France Digitale主办的年度法国is AI大会上发表了讲话。上午晚些时候，巴黎多芬大学(university of Paris-Dauphine)教授贾马尔?

从最基本的意义上讲，对抗性攻击指的是在机器学习模型中引入某种元素，这种模型是专门用来错误地识别某些东西的。

在Papernot的演讲中，他引用了最近一篇研究论文中的一个例子:

在左边，机器学习模型看到了熊猫的图片，并以相当高的信心正确地识别了它。在中间，有人将这张肉眼不可见的像素图像叠加到熊猫图像上。结果是，电脑现在几乎可以确定这是一只长臂猿。

这种欺骗的简单性突出了一对夫妇的弱点。首先，机器学习的图像识别虽然可能已经有了很大的进步，但仍处于初级阶段。Papernot指出，要“教”机器识别各种猫和狗的图像，需要保持参数和图像相当基本，在样本集中引入相当大的偏差。

不幸的是，这使得黑客的工作更容易。Papernot指出，要破坏这些经常使用公开图片进行学习的系统，并不需要侵入实际的机器学习系统。外部方可以在搜索要学习的图像时检测到这样的系统，然后很容易对它提出的问题和设置的参数进行反向工程。

“你可以选择模型提出的问题，然后找到一种方法让模型做出错误的预测，”他说。“你甚至不需要内部访问。您可以发送输入，并查看它做出的预测，然后提取模型。你可以用这个过程在本地复制这个过程。”

从这里开始，引入一些欺骗就相对简单了，这些欺骗欺骗了机器学习，让它学习所有错误的东西。

“这意味着，对手真的不需要了解你的模型就可以攻击，”他说。“他们只需要知道它试图解决什么问题。他们不需要很多资源就能窃取并攻击你的模型。”

事实上，他说，他自己对这种提取攻击的实验发现，成功率高达96%。当然，如果自动化系统将猫误认为狗是一回事。这是另一个如果它是自动驾驶汽车算法的基础，认为停车标志是一个屈服标志。

当然，这类攻击是在现实世界中进行的，人们会在标志上做标记来欺骗自动驾驶汽车。最近，东北大学(Northeastern University)和麻省理工学院- ibm沃森人工智能实验室(MIT-IBM Watson AI Lab)的科学家们设计了一件“对抗式t恤”，上面印着图案，目的是让某些人能够愚弄人类的检测系统。

虽然人工智能和伦理往往最受公众关注，但研究人员越来越关注对抗性攻击的问题。Atif在他的演讲中说，虽然这个问题早在十多年前就被发现了，但自2014年以来，致力于这个主题的研究论文数量“激增”。在即将召开的学习表现国际会议上，已经有超过120篇关于这个主题的论文提交。

Atif说，这种不断增长的兴趣是由寻找某种解决方案的愿望所驱动的，而到目前为止，这种愿望仍然难以实现。问题的部分原因在于，尽管机器学习系统必须维护一组定义好的参数，但对抗性攻击的种类是如此之多，以至于无法猜测所有可能的组合，也无法教会系统如何保护自己。

研究人员尝试了一些实验，比如将一个机器学习系统分成几个部分来执行相同的任务，然后比较结果。或者解释其他用户行为，比如点击哪些图片，以确定图片是否被正确读取。Atif说，研究人员还在探索更多地使用随机化和博弈论，希望找到更有力的方法来捍卫这些系统的完整性。

到目前为止，最有效的策略是增加一组带有对抗性图片的图片，至少给机器学习系统一些基本的防御。在最好的情况下，这种策略的准确率只有45%。

“这是最先进的，”他说。“我们只是没有一个强大的防御战略。”

对抗性攻击如何揭示机器学习的弱点

相关推荐