信息学院宋富课题组在人工智能安全领域取得重要进展

发布时间2021-05-14文章来源 信息科学与技术学院作者责任编辑

随着深度学习技术的不断进步,人工智能被广泛应用在人机交互、推荐系统、安全防护等各个领域。近年来深度神经网络的安全性问题也受到了广泛的关注。一些简单的对抗样本生成技术就可以让复杂的神经网络完全失效。该技术通过对数据的细微修改,在用户感知不到的情况下,可以使机器做出错误判断,造成严重后果。在安全领域难以找到能搞定一切的“银弹”,更不会有一劳永逸的“安全永动机”,因此研究对抗样本的攻击与防御是一项重要而又艰巨的任务。为积极响应国家网络空间安全战略,信息学院宋富课题组与合作者在该领域进行了长期的研究,并取得了重要进展。



4月19日,课题组题为Attack as Defense: Characterizing Adversarial Examples using Robustness的论文被第三十届软件测试与分析国际研讨会(ACM SIGSOFT International Symposium on Software Testing and Analysis,ISSTA 2021,CCF-A)会议接收。

研究人员提出了一种基于鲁棒性差异的对抗样本区分方法,并创新地使用对抗样本攻击技术作为高效的鲁棒性评估指标,实现了变攻为防的对抗样本检测算法。实验结果显示,该方法在对抗样本检测精度和效率上均超过了现有的前沿工作。同时,这一对抗样本检测算法可以与其他防御方法高效结合(例如对抗训练等),经过结合后的防御可以抵抗更强的针对性攻击。


防御效果展示


上图用实例展示了该防御方法的效果。其中第一列为一张可以被分类为飞机的正常图片,第二列为攻击者生成的对抗样本(此时未对神经网络进行防御)。这些样本可以让神经网络出错,将飞机误分类为猫和马。而在使用本文中提出的检测算法和对抗训练之后,攻击者无法再使用很小的扰动使神经网络出错,如果想要绕过该检测方法,攻击者只能生成类似第三列的图片。但此时图片已经失去了原有的特征信息,扰动变得显而易见,此时人类面对这两张图片也难以辨别其所属的类别,不再符合对抗样本的定义。

此研究由上海科技大学、浙江大学、新加坡管理大学等单位协作完成,上海科技大学为本论文的第一完成单位。信息学院2019级博士生赵哲为该论文第一作者,宋富教授为通讯作者,2019级研究生陈光科、2018级本科生杨易为为共同作者。