计算机视觉和人类视觉有更多的共同点？MIT研究人员解读【周边视觉对机器的好处】

来源|麻省理工学院新闻办公室编辑|专知翻译整理

研究人员发现一些计算机视觉系统处理图像的方式与人类通过眼角看到的方式之间存在相似之处。

也许计算机视觉和人类视觉有更多的共同点？

麻省理工学院的研究表明，某种类型的强大计算机视觉模型感知视觉表示的方式类似于人类使用周边视觉的方式。这些模型被称为对抗性鲁棒模型，旨在克服添加到图像数据中的细微噪声。

研究人员发现，这些模型学习转换图像的方式类似于人类外围处理中涉及的某些元素。但由于机器没有视觉外围，计算机视觉模型的工作很少集中在外围处理上，资深作者、大脑、思维和机器中心的博士后 Arturo Deza 说。

“这似乎是周边视觉，以及正在进行的纹理表示，已被证明对人类视觉非常有用。所以，我们的想法是，也许对机器也有一些用途，”核心作者、电气工程和计算机科学系的研究生 Anne Harrington 说。

结果表明，设计一个包含某种形式的外围处理的机器学习模型可以使模型能够自动学习对图像数据中的一些细微操作具有鲁棒性的视觉表示。Deza 补充说，这项工作还可以帮助阐明人类外围处理的目标，这些目标仍然没有得到很好的理解。

该研究成果在国际顶会（ICLR 2022）上发表（如下）。
【Finding Biological Plausibility for Adversarially Robust Features via Metameric Tasks】：最近的工作表明，深度神经网络 (DNN) 训练数据集中的特征约束驱动了对抗性噪声的鲁棒性（Ilyas 等人，2019 年）。通过图像处理，这种对抗性鲁棒网络学习的表示也被证明比非鲁棒网络在人类感知上更一致（Santurkar 等人，2019 年，Engstrom 等人，2019 年）。尽管看起来更接近人类视觉感知，但尚不清楚稳健 DNN 表示中的约束是否与人类视觉中发现的生物约束相匹配。人类视觉似乎依赖于外围基于纹理/摘要的统计表示，这已被证明可以解释诸如拥挤 (Balas et al., 2009) 和视觉搜索任务 (Rosenholtz et al., 2012) 等现象。为了了解对抗性鲁棒优化/表示与人类视觉相比如何，我们使用类似于 Freeman & Simoncelli, 2011, Wallis et al., 2016 和 Deza et al., 2019 的 metamer 任务进行了心理物理学实验，我们评估了人类的表现如何观察者可以区分为匹配对抗性鲁棒表示而合成的图像与非鲁棒表示和周边视觉的纹理合成模型（Texforms a la Long et al., 2018）。我们发现，随着刺激在外围呈现得更远，鲁棒表示和纹理模型图像的可辨别性降低到接近机会的表现。此外，鲁棒和纹理模型图像的性能在参与者中显示出相似的趋势，而在非鲁棒表示上的性能在整个视野中变化很小。这些结果共同表明（1）对抗性鲁棒表示比非鲁棒表示更好地捕获外围计算，以及（2）鲁棒表示捕获外围计算，类似于当前最先进的纹理外围视觉模型。更广泛地说，我们的研究结果支持这样一种观点，即局部纹理摘要统计表示可能会推动人类对对抗性扰动的不变性，并且在 DNN 中加入此类表示可能会产生有用的属性，如对抗性鲁棒性。这些结果共同表明（1）对抗性鲁棒表示比非鲁棒表示更好地捕获外围计算，以及（2）鲁棒表示捕获外围计算，类似于当前最先进的纹理外围视觉模型。更广泛地说，我们的研究结果支持这样一种观点，即局部纹理摘要统计表示可能会推动人类对对抗性扰动的不变性，并且在 DNN 中加入此类表示可能会产生有用的属性，如对抗性鲁棒性。这些结果共同表明（1）对抗性鲁棒表示比非鲁棒表示更好地捕获外围计算，以及（2）鲁棒表示捕获外围计算，类似于当前最先进的纹理外围视觉模型。更广泛地说，我们的研究结果支持这样一种观点，即局部纹理摘要统计表示可能会推动人类对对抗性扰动的不变性，并且在 DNN 中加入此类表示可能会产生有用的属性，如对抗性鲁棒性。

【双重视觉】
人类和计算机视觉系统都具有所谓的中心凹视觉，用于检查高度详细的物体。人类还拥有周边视觉，用于组织广阔的空间场景。Deza 说，典型的计算机视觉方法试图模拟中央凹视觉——这是机器识别物体的方式——并且倾向于忽略周边视觉。

但是中央凹计算机视觉系统容易受到攻击者添加到图像数据中的对抗性噪声的影响。在对抗性攻击中，恶意代理会巧妙地修改图像，因此每个像素都发生了非常细微的变化——人类不会注意到差异，但噪音足以欺骗机器。例如，一张图像对人类来说可能看起来像一辆汽车，但如果它受到对抗性噪声的影响，计算机视觉模型可能会自信地将其误分类为蛋糕，这可能会对自动驾驶汽车产生严重影响。

为了克服这个漏洞，研究人员进行了所谓的对抗性训练，他们创建了经过对抗性噪声操纵的图像，将它们输入神经网络，然后通过重新标记数据并重新训练模型来纠正其错误。

“仅仅进行额外的重新标记和训练过程似乎就与人类处理产生了很多感知上的一致性，”Deza 说。

他和 Harrington 想知道这些经过对抗训练的网络是否健壮，因为它们编码的对象表示类似于人类周边视觉。因此，他们设计了一系列心理物理人体实验来检验他们的假设。

【检测时间】
他们从一组图像开始，并使用三种不同的计算机视觉模型从噪声中合成这些图像的表示：一个“正常”机器学习模型，一个经过训练具有对抗鲁棒性的模型，一个专门设计用于解释了人类外围处理的某些方面，称为 Texforms。

该团队在一系列实验中使用了这些生成的图像，参与者被要求区分原始图像和每个模型合成的表示。一些实验还让人类区分来自相同模型的不同对随机合成图像。

参与者将他们的眼睛集中在屏幕的中心，而图像则在屏幕的远端，在他们周围的不同位置闪烁。在一个实验中，参与者必须在一系列图像中识别出奇怪的图像，这些图像一次只闪烁几毫秒，而在另一个实验中，他们必须匹配在他们的中央凹处呈现的图像，两个候选模板图像放置在他们的外围。

在实验中，参与者将他们的眼睛集中在屏幕的中心，而图像则在屏幕的另一边闪烁，在他们周围的不同位置，就像这些动画 gif 一样。在一项实验中，参与者必须在一系列图像中识别出奇怪的图像，这些图像一次只闪烁几毫秒。由研究人员提供。

在这个实验中，研究人员让人类将中心模板与两个外围模板之一进行匹配，而他们的眼睛不会从屏幕中心移开。由研究人员提供。

当合成图像显示在远处时，参与者在很大程度上无法区分对抗性鲁棒模型或 Texform 模型的原始图像。标准机器学习模型并非如此。

然而，最引人注目的结果可能是人类所犯的错误模式（作为刺激在外围的位置的函数）在所有使用来自 Texform 模型的刺激的实验条件和对抗性稳健的模型。这些结果表明，对抗性稳健模型确实捕捉到了人类外围处理的某些方面，Deza 解释说。

研究人员还计算了特定的机器学习实验和图像质量评估指标，以研究每个模型合成的图像之间的相似性。他们发现对抗性鲁棒模型和 Texforms 模型生成的模型最相似，这表明这些模型计算相似的图像转换。

“我们正在阐明人类和机器如何犯同样类型的错误，以及为什么会犯这种错误，”Deza 说。为什么会发生对抗性鲁棒性？是否存在我们尚未在大脑中发现的机器对抗鲁棒性的生物学等效物？”

Deza希望这些结果能激发该领域的更多工作，并鼓励计算机视觉研究人员考虑构建更多受生物启发的模型。

这些结果可用于设计具有某种模拟视觉外围的计算机视觉系统，可以使其对对抗性噪声具有自动鲁棒性。这项工作还可以为机器的开发提供信息，这些机器能够通过使用人类外围处理的某些方面来创建更准确的视觉表示。

“我们甚至可以通过尝试从人工神经网络中获取某些属性来了解人类视觉，”Harrington 补充道。

以前的工作已经展示了如何隔离图像的“稳健”部分，在这些图像上的训练模型使它们不太容易受到对抗性失败的影响。达姆施塔特工业大学心理学研究所和认知科学中心的感知教授托马斯沃利斯解释说，这些强大的图像看起来像是真实图像的加扰版本。

“为什么这些强大的图像看起来像它们的样子？Harrington 和 Deza 使用仔细的人类行为实验来表明，人们看到这些图像与外围原始照片之间差异的能力在质量上与从受生物启发的人类外围信息处理模型生成的图像相似，”Wallis 说，谁没有参与这项研究。“Harrington 和 Deza 提出，学习忽略外围一些视觉输入变化的相同机制可能是为什么稳健的图像看起来像它们的样子，以及为什么对稳健的图像进行训练会降低对抗敏感性。这个有趣的假设值得进一步研究，并且可以代表生物和机器智能研究之间协同作用的另一个例子。”

这项工作得到了麻省理工学院大脑、思想和机器中心和洛克希德马丁公司的部分支持。

成为VIP会员查看完整内容