产生和防御对抗样本的新方法 | 分享总结

2018 年 1 月 6 日 AI研习社 杨文
产生和防御对抗样本的新方法 | 分享总结

对抗样本是一类被恶意设计来攻击机器学习模型的样本。它们与真实样本的区别几乎无法用肉眼分辨,但是却会导致模型进行错误的判断。本文就来大家普及一下对抗样本的基础知识,以及如何做好对抗样本的攻与防。

在近期 AI 研习社举办的线上公开课上,来自清华大学的在读博士生廖方舟分享了他们团队在 NIPS 2017 上一个对抗样本攻防大赛中提到的两个新方法,这两个方法在大赛中分别获得了攻击方和防守方的第一名。在此可看视频回放:http://www.mooc.ai/open/course/383 

廖方舟,清华大学化学系学士,生医系在读博士。研究方向为计算神经学,神经网络和计算机视觉。参加多次 Kaggle 竞赛,是 Data Science Bowl 2017 冠军,NIPS 2017 对抗样本比赛冠军。Kaggle 最高排名世界第 10。

分享主题:

动量迭代攻击和高层引导去噪:产生和防御对抗样本的新方法

分享内容:

大家好,我是廖方舟,今天分享的主题是对抗样本的攻和防。对抗样本的存在会使得深度学习在安全敏感性领域的应用收到威胁,如何对其进行有效的防御是很重要的研究课题。 我将从以下几方面做分享。

  • 什么是对抗样本

  • 传统的攻击方法

  • 传统的防守方法

  • 动量迭代攻击

  • 去噪方法

  • 高层引导去噪方法

  什么是对抗样本

对抗样本的性质不仅仅是图片所拥有的性质,也不仅仅是深度学习神经网络独有的性质。因此它是把机器学习模型应用到一些安全敏感性领域里的一个障碍。

当时,机器学习大牛 Good fellow 找了些船、车图片,他想逐渐加入一些特征,让模型对这些船,车的识别逐渐变成飞机,到最后发现人眼观测到的图片依然是船、车,但模型已经把船、车当做飞机。

我们之前的工作发现样本不仅仅是对最后的预测产生误导,对特征的提取也产生误导。这是一个可视化的过程。

当把一个正常样本放到神经网络后,神经元会专门观察鸟的头部,但我们给它一些对抗样本,这些对抗样本也都全部设计为鸟,就发现神经网络提取出来的特征都是乱七八糟,和鸟头没有太大的关系。也就是说欺骗不是从最后才发生的,欺骗在从模型的中间就开始产生的。

下图是最简单的攻击方法——Fast Gradient Sign Method 

除了 FGSM 单步攻击的方法,它的一个延伸就是多步攻击,即重复使用 FGSM。由于有一个最大值的限制,所以单步的步长也会相应缩小。比如这里有一个攻击三步迭代,每一步迭代的攻击步长也会相应缩小。

产生图片所用的 CNN 和需要攻击的 CNN 是同一个,我们称为白盒攻击。与之相反的攻击类型称为黑盒攻击,也就是对需要攻击的模型一无所知。

以上所说的都是 Non Targeted, 只要最后得到的目标预测不正确就可以了。另一种攻击 Targeted FGSM,目标是不仅要分的不正确,而且还要分到指定的类型。

一个提高黑盒攻击成功率行之有效的办法,是攻击一个集合。

而目前为止一个行之有效的防守策略就是对抗训练。在模型训练过程中,训练样本不仅仅是干净样本,而是干净样本加上对抗样本。随着模型训练越来越多,一方面干净图片的准确率会增加,另一方面,对对抗样本的鲁棒性也会增加。

下面简单介绍一下 NIPS 2017 上的这个比赛规则

  比赛结构

两个限制条件:容忍范围不能太大;不能花太长时间产生一个对抗样本,或者防守一个对抗样本

FGSM 算法结果

图中绿色模型为攻击范围,最后两栏灰色是黑盒模型,随着迭代数量的增加, 攻击成功率反而上升。这就给攻击造成了难题。

我们解决的办法就是在迭代与迭代中间加入动量

加入动量之后,白盒攻击变强了,而且对黑盒模型攻击的成功率也大大提升了。

  总结

以前方法(iterative attack)的弱点是在迭代数量增多的情况下,它们的迁移性,也就是黑盒攻击性会减弱,在我们提出加入动量之后,这个问题得到了解决,可以很放心使用非常多的迭代数量进行攻击。

在 NIPS 2017 比赛上得到最高的分数

需要提到的一点,上面提到的都是 Non-targeted , 在 Targeted 攻击里面,这个策略有所不同。在 Targeted 攻击里面,基本没有观察到迁移性,也就是黑盒成功率一直很差,即便是加入动量,它的迁移程度也非常差。

  下面讲一下防守

首先想到的就是去噪声,我们尝试用了一些传统的去噪方法(median filter 、BM3D)效果都不好。之后我们尝试使用了两个不同架构的神经网络去噪。一个是 Denoising Autoencoder,另一个是 Denoising Additive U-Net。

我们的训练样本是从 ImageNet 数据集中取了三万张图片 ,使用了七个不同的攻击方法对三万张图片攻击,得到 21 万张对抗样本图片以及三万张对应的原始图片。除了训练集,我们还做了两个测试集。一个白盒攻击测试集和一个黑盒攻击测试集。

  训练效果

我们发现经过去噪以后,正确率反而有点下降。我们分析了一下原因,输入一个干净图片,再输入一个对抗图片,然后计算每一层网络在这两张图片上表示的差距,我们发现这个差距是逐层放大的。

图中蓝线发现放大的幅度非常大,图中红线是去噪过后的图片,仍然在放大,导致最后还是被分错。

为了解决这个问题,我们提出了经过改良后的网络 HGD

HGD 的几个变种

和之前的方法相比,改良后的网络 HGD 防守准确率得到很大的提升

HGD 有很好的迁移性

最后比赛中,我们集成了四个不同的模型,以及训练了他们各自的去噪, ,最终把它们合并起来提交了上去。

  HGD 网络总结

优点:

  • 效果显著比其他队伍的模型好。

  • 比前人的方法使用更少的训练图片和更少的训练时间。

  • 可迁移。

缺点:

  • 还依赖于微小变化的可测量

  • 问题并没有完全解决

  • 仍然会受到白盒攻击,除非假设对手不知道 HGD 的存在

AI 慕课学院提供了本次分享的视频回放:http://www.mooc.ai/open/course/383

AI 慕课年度学习盛典

爆款课程限时打折,优惠卡券免费领取!

精品课程 1 元秒杀,买课即送热门图书!

▼▼▼  


新人福利



关注 AI 研习社(okweiwu),回复  1  领取

【超过 1000G 神经网络 / AI / 大数据,教程,论文】



GANs 合辑

登录查看更多
6

相关内容

对抗样本由Christian Szegedy等人提出,是指在数据集中通过故意添加细微的干扰所形成的输入样本,导致模型以高置信度给出一个错误的输出。在正则化背景下,通过对抗训练减少原有独立同分布的测试集的错误率——在对抗扰动的训练集样本上训练网络。

简介:

如今,深度学习已被广泛应用于图像分类和图像识别的问题中,取得了令人满意的实际效果,成为许多人 工智能应用的关键所在.在对于模型准确率的不断探究中,研究人员在近期提出了“对抗样本”这一概念.通过在原有 样本中添加微小扰动的方法,成功地大幅度降低原有分类深度模型的准确率,实现了对于深度学习的对抗目的,同时 也给深度学习的攻方提供了新的思路,对如何开展防御提出了新的要求.在介绍对抗样本生成技术的起源和原理的 基础上,对近年来有关对抗样本的研究和文献进行了总结,按照各自的算法原理将经典的生成算法分成两大类——全像素添加扰动和部分像素添加扰动.之后,以目标定向和目标非定向、黑盒测试和白盒测试、肉眼可见和肉眼不可见的二级分类标准进行二次分类.同时,使用 MNIST 数据集对各类代表性的方法进行了实验验证,以探究各种方法的优缺点.最后总结了生成对抗样本所面临的挑战及其可以发展的方向,并就该技术的发展前景进行了探讨.

内容简介:

本文重点对生成对抗样本的已有研究工作进行综述,主要选取了近年来有代表性的或取得比较显著效果的方法进行详细的原理介绍和优缺点分析.按照其生成方式和原理的不同,分为全像素添加扰动和部分像素添 加扰动两类.在此基础上,根据目标是否定向、是否黑盒和是否肉眼可见这 3 个标准进行细分,将各类方法中的 代表性算法在统一数据集(MNIST)上进行测试,验证并分析其优缺点,终总结提出未来的发展前景. 本文第 1 节主要介绍对抗样本的基本概念和基础知识,包括对抗样本本身的定义、其延伸有关的相关概念 以及基本操作流程.第 2 节则指出对抗样本是从深度学习中衍生出来的概念,同时介绍了对抗样本有效性的评估方法.第 3 节则介绍对抗样本的起源,说明了对抗样本的产生契机和原理解释.第 4 节介绍生成对抗样本的发展状况,以全像素添加扰动和部分像素添加扰动两大类进行算法说明,同时总结生成方法中常用的数据集.第 5 节是对第 4 节中代表方法的实验,结合对同一数据集的效果测试来说明各类方法的优缺点.通过这些优缺点,在 第 6 节中讨论对抗样本生成技术面临的挑战和前景预测.

目录:

  • 1 简 介

    • 1.1 样本的定义
    • 1.2 相关概念
    • 1.3 基本操作流程
  • 2 前 传

    • 2.1机器学习在分类问题中的运用
    • 2.2 深度学习在分类问题中的运用
    • 2.3 评估方法
  • 3 起源

    • 3.1 首次发现
    • 3.2 基本原理
  • 4 发 展

    • 4.1 分类方式及代表模型
    • 4.2 常用数据集
  • 5 实验结果对比

  • 6 面临挑战与前景预测

成为VIP会员查看完整内容
0
48
小贴士
相关资讯
SemanticAdv:基于语义属性的对抗样本生成方法
机器之心
10+阅读 · 2019年7月12日
一文读懂文本处理中的对抗训练
PaperWeekly
16+阅读 · 2019年6月5日
AI新方向:对抗攻击
网易智能菌
6+阅读 · 2018年11月14日
L2正则化视角下的对抗样本
极市平台
5+阅读 · 2018年7月13日
机器学习(17)之集成学习原理总结
机器学习算法与Python学习
16+阅读 · 2017年9月16日
相关VIP内容
相关论文
Differential Treatment for Stuff and Things: A Simple Unsupervised Domain Adaptation Method for Semantic Segmentation
Zhonghao Wang,Mo Yu,Yunchao Wei,Rogerior Feris,Jinjun Xiong,Wen-mei Hwu,Thomas S. Huang,Honghui Shi
5+阅读 · 2020年3月18日
Meta-Transfer Learning for Zero-Shot Super-Resolution
Jae Woong Soh,Sunwoo Cho,Nam Ik Cho
25+阅读 · 2020年2月27日
Optimization for deep learning: theory and algorithms
Ruoyu Sun
75+阅读 · 2019年12月19日
Pixel Level Data Augmentation for Semantic Image Segmentation using Generative Adversarial Networks
Shuangting Liu,Jiaqi Zhang,Yuxin Chen,Yifan Liu,Zengchang Qin,Tao Wan
3+阅读 · 2019年2月8日
Multi-class Classification without Multi-class Labels
Yen-Chang Hsu,Zhaoyang Lv,Joel Schlosser,Phillip Odom,Zsolt Kira
4+阅读 · 2019年1月2日
Compositional GAN: Learning Conditional Image Composition
Samaneh Azadi,Deepak Pathak,Sayna Ebrahimi,Trevor Darrell
30+阅读 · 2018年7月19日
Hanxiao Wang,Shaogang Gong,Xiatian Zhu,Tao Xiang
3+阅读 · 2018年5月4日
Patrick Jähnichen,Florian Wenzel,Marius Kloft,Stephan Mandt
7+阅读 · 2018年3月21日
Lior Friedman,Shaul Markovitch
4+阅读 · 2018年1月31日
Xuelin Qian,Yanwei Fu,Wenxuan Wang,Tao Xiang,Yang Wu,Yu-Gang Jiang,Xiangyang Xue
11+阅读 · 2018年1月18日
Top