【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

来源| 麻省理工学院编辑| 专知翻译整理

机器学习模型的解释方法效果如何？ 开发了一种方法来测试理解机器学习模型的流行方法是否正常工作

01 研究成果在顶级会议【AAAI 2022】发表

标题
Do Feature Attribution Methods Correctly Attribute Features?
作者
Yilun Zhou, Serena Booth, Marco Tulio Ribeiro, Julie Shahx

摘要
特征归因方法在可解释的机器学习中很流行。这些方法计算每个输入特征的属性以表示其重要性，但对“属性”的定义没有达成共识，导致许多竞争方法几乎没有系统评估，特别是由于缺乏基本事实属性而变得复杂。为了解决这个问题，我们提出了一个数据集修改程序来诱导这种基本事实。使用这个过程，我们评估了三种常见的方法：显着性图、基本原理和注意力。我们发现了几个缺陷，并为越来越多的证据添加了新的观点，这些证据质疑这些方法在野外数据集上应用的正确性和可靠性。我们进一步讨论了可能的补救途径，并推荐了新的归因方法，以便在部署之前针对基本事实进行测试。

paper
https://www.zhuanzhi.ai/paper/ff9e8c12cebe8c704d5f64ec64b594ab

code
https://github.com/YilunZhou/feature-attribution-evaluation

想象一个医生团队使用神经网络在乳房 X 线照片中检测癌症。即使这种机器学习模型似乎表现良好，它也可能专注于与肿瘤意外相关的图像特征，如水印或时间戳，而不是肿瘤的实际迹象。

为了测试这些模型，研究人员使用“特征归因方法”，这些技术应该告诉他们图像的哪些部分对神经网络的预测最重要。但是，如果归因方法遗漏了对模型很重要的特征怎么办？由于研究人员不知道从哪些特征开始很重要，因此他们无法知道他们的评估方法是无效的。

为了帮助解决这个问题，麻省理工学院的研究人员设计了一个修改原始数据的过程，以便他们确定哪些特征对模型实际上很重要。然后他们使用这个修改后的数据集来评估特征归因方法是否能够正确识别这些重要特征。

他们发现，即使是最流行的方法也经常会遗漏图像中的重要特征，并且有些方法几乎无法像随机基线那样执行。这可能会产生重大影响，特别是如果将神经网络应用于医疗诊断等高风险情况。如果网络不能正常工作，并且试图捕捉此类异常的尝试也不能正常工作，人类专家可能不知道他们被错误模型误导，主要作者、电气工程和计算机科学研究生 Yilun Zhou 解释说在计算机科学和人工智能实验室（CSAIL）。

“所有这些方法都被广泛使用，特别是在一些真正高风险的场景中，比如通过 X 射线或 CT 扫描检测癌症。但这些特征归因方法一开始就可能是错误的。他们可能会突出显示与模型用来进行预测的真实特征不对应的东西，我们发现这种情况经常发生。如果你想使用这些特征归因方法来证明模型正常工作，你最好首先确保特征归因方法本身正常工作，”他说。

Zhou 与 EECS 研究生 Serena Booth、微软研究院研究员 Marco Tulio Ribeiro 和资深作者 Julie Shah 共同撰写了这篇论文，后者是麻省理工学院航空航天学教授和 CSAIL 交互式机器人组主任。

02 专注于功能

在图像分类中，图像中的每个像素都是神经网络可以用来进行预测的特征，因此它可以关注数百万个可能的特征。例如，如果研究人员想设计一种算法来帮助有抱负的摄影师改进，他们可以训练一个模型来区分专业摄影师拍摄的照片和休闲游客拍摄的照片。该模型可用于评估业余照片与专业照片的相似程度，甚至提供改进的具体反馈。研究人员希望该模型能够在训练期间专注于识别专业照片中的艺术元素，例如色彩空间、构图和后期处理。但碰巧一张专业拍摄的照片可能包含摄影师姓名的水印。

“显然，我们不想告诉有抱负的摄影师，水印是成功事业所需要的一切，因此我们希望确保我们的模型专注于艺术特征而不是水印的存在。使用特征归因方法来分析我们的模型很诱人，但归根结底，并不能保证它们能正常工作，因为模型可以使用艺术特征、水印或任何其他特征，”Zhou 说。

“我们不知道数据集中那些虚假的相关性是什么。可能有很多不同的东西可能对一个人来说是完全察觉不到的，比如图像的分辨率，”Booth 补充道。“即使我们无法察觉，神经网络也可能会提取这些特征并使用它们进行分类。这是根本问题。我们不太了解我们的数据集，但也无法很好地了解我们的数据集。”

研究人员修改了数据集以削弱原始图像和数据标签之间的所有相关性，从而保证原始特征不再重要。

然后，他们为图像添加一个新特征，该特征非常明显，神经网络必须专注于它才能进行预测，例如不同图像类别的不同颜色的明亮矩形。

“我们可以自信地断言，任何获得真正高置信度的模型都必须关注我们放入的那个彩色矩形。然后我们可以看看所有这些特征归因方法是否急于突出该位置而不是其他一切，”Zhou 说。

03 “特别令人震惊”的结果

他们将这种技术应用于许多不同的特征归因方法。对于图像分类，这些方法会产生所谓的显着性图，它显示了分布在整个图像中的重要特征的集中度。例如，如果神经网络正在对鸟类的图像进行分类，则显着性图可能会显示 80% 的重要特征集中在鸟喙周围。

在去除图像数据中的所有相关性后，他们以多种方式处理照片，例如模糊图像的某些部分、调整亮度或添加水印。如果特征归因方法正常工作，那么几乎 100% 的重要特征应该位于研究人员操作的区域周围。

结果并不令人鼓舞。没有一种特征归因方法接近 100% 的目标，大多数几乎没有达到 50% 的随机基线水平，有些甚至在某些情况下表现比基线差。因此，即使新特征是模型可以用来进行预测的唯一特征，特征归因方法有时也无法识别。

“在所有不同类型的虚假相关中，这些方法似乎都不是非常可靠。这尤其令人担忧，因为在自然数据集中，我们不知道哪些虚假相关可能适用，”Zhou说。“这可能是各种因素。我们认为我们可以相信这些方法告诉我们，但在我们的实验中，似乎很难相信它们。”

他们研究的所有特征归因方法都比不存在异常更能检测异常。换句话说，这些方法比识别图像不包含水印更容易找到水印。因此，在这种情况下，人类更难以信任给出负面预测的模型。

该团队的工作表明，在将特征归因方法应用于现实世界模型之前对其进行测试至关重要，尤其是在高风险情况下。