传统上,对抗样本都是通过使用反向制造噪音的方法干扰一些已经存在的图像。而 Song 等人[3]则提出了一种非常酷的生成对抗样本的方法,他们使用 GAN 直接从头开始生成能够欺骗被攻击模型的图像。具体来说就是,他们使用了一个辅助分类器 GAN(AC-GAN),能够对图像类进行条件设置,以便控制正在生成的图像类型。这导致会生成「不受限制的对抗样本」,因为没有约束距离(图像是从头开始生成的)。不过这里需要强调,他们的方法既不满足前面提到的条件(1)也不满足条件(2)。虽然他们的技术非常有用,并且用生成能够欺骗模型的新图像可以进行模型调试以及数据增强,但他们的分析却将泛化性能和对抗性鲁棒性看做一回事。事实上,若想正确分析模型的鲁棒性,我们需要能够将泛化性能和对抗鲁棒性这两个指标分开,因为它们并不一样,具体可以参看 Tsipras 等人[4]最新的研究工作。因此,尽管人们可能会放弃「基于干扰的对抗样本」的定义,但就目前而言,它们是唯一允许以独立的、非混淆的方式研究对抗鲁棒性的方法。
4. 总结
对于诸如 MNIST 这类的数据集,对抗样本的当前定义还存在着些许不足,但是对于类似 ImageNet 的内容还是很有意义的,因为在 ImageNet 中干扰因子很难被注意到,也不会使图像看起来像是奇怪的组合。对每个图像或每类图像使用相同的阈值 ε 可能是一种惩罚性要求,因为这会更容易检测特定类别图像的噪声。图像是一种可视化的数据类型,人类自然容易分析和判断是否有可疑的东西存在。然而,在很多领域中,数据都是以数字的抽象向量的形式出现,这些向量很难理解和可视化。在这些领域中定义什么是对抗可能已经超出了我们想象的范围,因为我们一开始就无法理解原始数据。在这种情况下,提出 ε 的定量方法是必须的。via:http://1t.click/akDc参考文献:[1] Madry et al. https://arxiv.org/pdf/1706.06083.pdf [2] Carlini and Wagner, https://arxiv.org/pdf/1705.07263.pdf [3] Song et al. https://arxiv.org/pdf/1805.07894.pdf [4] Tsipras et al. https://arxiv.org/pdf/1805.12152.pdf 更多内容