In black-box adversarial attacks, adversaries query the deep neural network (DNN), use the output to reconstruct gradients, and then optimize the adversarial inputs iteratively. In this paper, we study the method of adding white noise to the DNN output to mitigate such attacks, with a unique focus on the trade-off analysis of noise level and query cost. The attacker's query count (QC) is derived mathematically as a function of noise standard deviation. With this result, the defender can conveniently find the noise level needed to mitigate attacks for the desired security level specified by QC and limited DNN performance loss. Our analysis shows that the added noise is drastically magnified by the small variation of DNN outputs, which makes the reconstructed gradient have an extremely low signal-to-noise ratio (SNR). Adding slight white noise with a standard deviation less than 0.01 is enough to increase QC by many orders of magnitude without introducing any noticeable classification accuracy reduction. Our experiments demonstrate that this method can effectively mitigate both soft-label and hard-label black-box attacks under realistic QC constraints. We also show that this method outperforms many other defense methods and is robust to the attacker's countermeasures.


翻译:在黑盒对抗性攻击中,对手会询问深神经网络(DNN),使用输出来重建梯度,然后优化对抗性输入。在本文中,我们研究在 DNN 输出中添加白噪音的方法,以减轻这种攻击,特别侧重于对噪音水平和查询成本的权衡分析。攻击者的查询数(QC)是数学上得出的,因为噪音标准偏差的函数。因此,捍卫者可以方便地找到所需的噪音水平,以缓解QC 和有限的DNN 性能损失所要求安全水平的攻击。我们的分析表明,DNN 输出的微小变异大大放大了增加的噪音,使重建的梯度的信号对噪音比率极低。加上标准偏差小于0.01的微白噪音,足以使QC增加许多数量级的量,而不会带来明显的分类准确性降低。我们的实验表明,这种方法可以在现实的QC限制下有效地减轻软标签和硬标签黑箱攻击。我们还表明,这种方法超越了其他防御措施。

0
下载
关闭预览

相关内容

专知会员服务
44+阅读 · 2021年5月17日
专知会员服务
44+阅读 · 2020年10月31日
因果图,Causal Graphs,52页ppt
专知会员服务
238+阅读 · 2020年4月19日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
99+阅读 · 2019年10月9日
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
CNN 反向传播算法推导
统计学习与视觉计算组
28+阅读 · 2017年12月29日
资源|斯坦福课程:深度学习理论!
全球人工智能
16+阅读 · 2017年11月9日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
Shift Invariance Can Reduce Adversarial Robustness
Arxiv
0+阅读 · 2021年11月22日
Arxiv
0+阅读 · 2021年11月19日
Arxiv
12+阅读 · 2020年12月10日
Deflecting Adversarial Attacks
Arxiv
8+阅读 · 2020年2月18日
Feature Denoising for Improving Adversarial Robustness
Arxiv
15+阅读 · 2018年12月9日
VIP会员
相关资讯
CCF A类 | 顶级会议RTSS 2019诚邀稿件
Call4Papers
10+阅读 · 2019年4月17日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
误差反向传播——RNN
统计学习与视觉计算组
18+阅读 · 2018年9月6日
【SIGIR2018】五篇对抗训练文章
专知
12+阅读 · 2018年7月9日
CNN 反向传播算法推导
统计学习与视觉计算组
28+阅读 · 2017年12月29日
资源|斯坦福课程:深度学习理论!
全球人工智能
16+阅读 · 2017年11月9日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
相关论文
Top
微信扫码咨询专知VIP会员